豆包实时语音大模型震撼上线,全方位提升语音交互体验!
今日,字节跳动豆包大模型团队隆重推出豆包实时语音大模型,现已在豆包App全量开放。升级至7.2.0版本即可亲身体验这一语音交互领域的重大突破。
豆包实时语音大模型集语音理解和生成于一体,打造端到端语音对话。与传统的级联模式相比,其在语音表现力、控制力、情绪承接方面展现出卓越性能,且具备低时延和随时打断对话等特性。
该模型专为中文语境和场景设计,采用语音和语义联合建模,赋予其丰富的表现力,呈现出接近真人水准的语音表达。通过学习角色语音和情感特点,模型具备强大的讲故事能力,可生动切换不同角色/状态,配合不同情绪表达,提升交互趣味性和沉浸感。
联合建模后,模型涌现出非凡的指令理解、声音扮演和声音控制能力。目前,模型部分方言和口音的识别源自Pretrain阶段数据泛化,而非针对性训练。
豆包实时语音大模型输出的语音高度逼近真人,包括类人的副语言特征(如语气词、停顿思考等)。同时,实时联网功能赋予模型获取最新信息的强大能力,对时效问题可精准、及时地回应。
技术展示表明,该模型语音语气自然度和情绪饱满度逼近真人,对话风格更加拟人,情感理解更加深刻,对用户的情绪做到较好承接。不过,现阶段模型仅支持中文,其他语种和方言的支持仍在探索中。