站长之家 - 业界 2025-12-05 17:26

豆包语音识别模型2.0发布:能听懂字看懂图 支持13种外语

12月5日,火山引擎正式推出其新一代语音识别系统——豆包语音识别模型2.0。新版本在核心架构与技术能力上实现了显著升级。

据悉,该2.0版本大幅提升了系统的推理与理解能力。通过深度分析对话的上下文语境,其整体关键词的准确捕捉率较以往提升了20%。这意味着系统能够更精准地把握用户表达的真实意图。

此次升级的另一大亮点是引入了多模态识别技术。新系统不仅能处理音频信息,还能结合单张或多张图片等视觉信息进行综合判断,从而实现“既听声音,也看内容”的识别效果,进一步提高了文字转写的准确性。

豆包语音识别模型2.0功能示意图

豆包语音识别模型2.0支持多模态识别

在语种支持方面,新版模型的服务范围进一步扩大,新增了对日语、韩语、德语、法语等共计13种外语的精准识别能力,以满足更广泛的国际化应用需求。

豆包语音识别模型2.0支持语种示意图

模型支持13种外语识别

针对日常识别中的难点,2.0版本进行了专项优化。系统在处理专有名词、人名、地名、品牌名称以及容易混淆的多音字时,表现出更强的鲁棒性和准确性。

以一个具体场景为例:在讨论历史人物生平时,若用户提到“苏辙贬谪地筠(yún)州”,传统识别技术可能因同音字问题误判为“云州”或“郓州”。而新一代系统能够依据对话中关于“苏轼、苏辙”的背景信息进行逻辑推理,即使前文未出现“筠州”,也能准确锁定这一特定历史地名,实现精准识别。

豆包语音识别模型2.0专有名词识别示例

模型在复杂专有名词识别上的应用示例

目前,豆包语音识别模型2.0已在火山引擎的“火山方舟”体验中心正式上线,并通过API接口向企业和开发者开放服务。

推荐关键词

24小时热搜

查看更多内容

大家正在看

手机厂靠拢豆包

手机厂靠拢豆包

豆包狂飙,字节AI再亮剑

豆包“包圆”互联网