豆包语音识别模型2.0发布：能听懂字看懂图支持13种外语

快科技12月5日消息，今日，火山引擎发布豆包语音识别模型2.0（Doubao-Seed-ASR-2.0），依托Seed混合专家大语言模型架构构建。

据介绍，2.0版本模型推理能力提升，可以通过深度理解上下文完成精准识别，上下文整体关键词召回率提升20%。

同时支持多模态视觉识别，不仅听懂字”还能看懂图”，通过单图和多图等视觉信息输入让文字识别更精准。

此外，2.0版本还支持日语、韩语、德语、法语等 13 种海外语种的精准识别。

豆包语音识别模型2.0发布：能听懂字看懂图支持13种外语

并且重点针对专有名词、人名、地名、品牌名称及易混淆多音字等复杂场景进行了升级。

以历史人物生平讨论场景为例，当用户提及苏辙贬谪地筠（yn）州”时，如果模型缺乏推理能力会易将其误识别为同音的云州”郓州”等。

而豆包语音识别模型2.0可依托当前讨论苏轼、苏辙”这一背景，即便上下文从没出现过筠州”，也能通过逻辑推理锁定用户所指的特定地名，最终实现对多音字地名的精准识别。

豆包语音识别模型2.0发布：能听懂字看懂图支持13种外语

目前，豆包语音识别模型2.0已上线火山方舟体验中心并对外提供API服务。

Billus AI高交会全球首发多模态大模型以AI Agent重构创意产业文明进化路径

2025-11-171.9万阅读

首页

IT业界

热点视频

站长资讯

好物榜

更多分类

更多主题

豆包语音识别模型2.0发布：能听懂字看懂图支持13种外语

推荐关键词

24小时热搜

大家正在看

火山引擎多模态数据湖，破解智能驾驶数据处理瓶颈

可灵AI O1正式上线：号称全球首个统一多模态视频大模型

豆包输入法官宣正式上线：搭载豆包App同款语音模型

为AI Agent时代筑基，火山引擎多模态数据湖方案重塑数据处理范式

全球首个大一统多模态视频模型可灵O1发布让P视频像P图一样简单

Billus AI高交会全球首发多模态大模型以AI Agent重构创意产业文明进化路径

你的信息可能被盯上了？省呗教你识别黑灰产“精准套路”

豆包更新语音对话功能：能讲粤语、四川话等4种方言

AI日报：李飞飞Marble 3D世界模型公测；OpenAI首次推出ChatGPT群聊功能；百度发布多模态 AI助手超能小度

小度AI眼镜Pro获评WISE2025年度焦点产品奖，多模态交互定义硬件新形态

荣耀工程师回应为啥只有华为、荣耀坚持3D人脸识别：需要长期技术投入积累

华为Mate 80标准版首次支持3D人脸识别：看齐Pro

海量音色AI赋能，逗哥配音重塑语音创作新体验

可灵2.6模型上线！语音、音效与画面一键直出重构AI视频创作工作流

首发3229元起小米年度旗舰智能门锁M40 Pro开售：AI掌静脉识别隔空刷掌开锁

豆包输入法正式版发布支持下载智能离线模型

中国移动北斗卫星短信业务升级：支持文字+图片+语音

豆包“输入”微信里

云决VITA品牌全景图：沸蛇AI语音鼠标智能硬件+办公生态

张一鸣向双11扔了一个豆包

首页

IT业界

热点视频

站长资讯

好物榜

更多分类

更多主题

豆包语音识别模型2.0发布：能听懂字看懂图 支持13种外语

推荐关键词

24小时热搜

大家正在看

火山引擎多模态数据湖，破解智能驾驶数据处理瓶颈

可灵AI O1正式上线：号称全球首个统一多模态视频大模型

豆包输入法官宣正式上线：搭载豆包App同款语音模型

为AI Agent时代筑基，火山引擎多模态数据湖方案重塑数据处理范式

全球首个大一统多模态视频模型可灵O1发布 让P视频像P图一样简单

Billus AI高交会全球首发多模态大模型 以AI Agent重构创意产业文明进化路径

你的信息可能被盯上了？省呗教你识别黑灰产“精准套路”

豆包更新语音对话功能：能讲粤语、四川话等4种方言

AI日报：李飞飞Marble 3D世界模型公测；OpenAI首次推出ChatGPT群聊功能；百度发布多模态 AI助手超能小度

小度AI眼镜Pro获评WISE2025年度焦点产品奖，多模态交互定义硬件新形态

荣耀工程师回应为啥只有华为、荣耀坚持3D人脸识别：需要长期技术投入积累

华为Mate 80标准版首次支持3D人脸识别：看齐Pro

海量音色AI赋能，逗哥配音重塑语音创作新体验

可灵2.6模型上线！语音、音效与画面一键直出 重构AI视频创作工作流

首发3229元起 小米年度旗舰智能门锁M40 Pro开售：AI掌静脉识别 隔空刷掌开锁

豆包输入法正式版发布 支持下载智能离线模型

中国移动北斗卫星短信业务升级：支持文字+图片+语音

豆包“输入”微信里

云决VITA品牌全景图：沸蛇AI语音鼠标智能硬件+办公生态

张一鸣向双11扔了一个豆包

豆包语音识别模型2.0发布：能听懂字看懂图支持13种外语

全球首个大一统多模态视频模型可灵O1发布让P视频像P图一样简单

Billus AI高交会全球首发多模态大模型以AI Agent重构创意产业文明进化路径

可灵2.6模型上线！语音、音效与画面一键直出重构AI视频创作工作流

首发3229元起小米年度旗舰智能门锁M40 Pro开售：AI掌静脉识别隔空刷掌开锁

豆包输入法正式版发布支持下载智能离线模型