站长之家(ChinaZ.com)2月26日 消息:元象推出了高度定制的语音方案,通过多重技术手段实现高自然度的语音交互体验。
该方案可以应用于客服、虚拟 IP、直播、有声书、语音助手等领域。在 XLand 剧本对话游戏中,元象为不同角色提供个性化配音,增强了游戏的代入感。方案的优势包括高定制性、高自然度、高性价比,快速生成千人千面、高保真、高稳定性的语音,节约时间和人力成本。
元象语音方案通过文本处理、语义情感建模、副语言识别与标注以及丰富的训练语料等技术,实现高自然度、高稳定性、多情感、多场景适配的语音合成,以及低成本高精准的声音克隆。
具体而言:
- 文本处理:通过自研大模型,将书面语转换为更自然的口语文本,融入更多副语言,如犹豫和结巴,以确保最终语音输出能够接近真实对话的方式。
- 语义情感建模:在语音生成方面,采用了BERT等模型来对语义和情感进行深度建模,不仅确保了语音咬字的准确度,在情感表达上也更加丰富多彩。
- 副语言识别与标注:通过训练能够精准识别笑声、哭声等副语言特征的ASR模型,有效解决了标注数据不足的问题,更好地模拟语音中的微妙情绪变化。
- 丰富的训练语料:模型基于上千小时的优质语音数据进行训练,涵盖了丰富语音场景,例如有声读物、人物访谈、日常聊天及影视作品等。让模型多“听”,提高其对不同情境的适应能力,增强泛化能力。