站长之家 - 业界 2026-02-11 14:13

性能对标Gemini 2.5 Pro!蚂蚁开源新一代全模态大模型Ming-Flash-Omni 2.0

2月11日,蚂蚁集团正式对外开源其新一代多模态模型Ming-Flash-Omni 2.0。

根据多项公开基准测试结果,该模型在图文理解、音频生成与图像处理等核心功能上表现优异,部分性能指标达到行业领先水平。

据悉,该模型是业内首个能够实现全场景音频统一生成的技术方案,可于单一音轨中同步合成语音、背景音效及音乐。

用户通过输入自然语言指令,即可对生成音频的音色、语速、语调乃至情感风格进行精细化调整。

在运行效率方面,模型实现了低至3.1Hz的推理帧率,能够以分钟级时长实时生成高保真长音频,在效能与成本控制上具备显著优势。

蚂蚁集团开源新一代多模态模型Ming-Flash-Omni 2.0

蚂蚁集团在多模态技术领域已深耕多年,Ming-Omni系列历经三次重要版本迭代。此次开源Ming-Flash-Omni 2.0,旨在将其核心能力以基础技术模块的形式向业界开放,为开发端到端多模态应用提供统一的技术支撑。

技术报告显示,该模型基于Ling-2.0混合专家架构进行训练,围绕“精准视觉识别、细致音频解析、稳定内容生成”三大方向进行了系统性优化。

在视觉能力上,通过融合海量细粒度数据与针对性训练,模型对相似物种、工艺细节及特定文物等复杂对象的辨识精度显著提升;

在音频方面,不仅实现了语音、音效与音乐的同轨合成,支持通过自然语言精确调控多项声音参数,还具备零样本音色复现与定制功能;

在图像处理上,增强了复杂编辑任务的稳定性,支持光影调节、场景置换、人物姿态优化及快速修图等操作,并在动态画面中保持了良好的连贯性与真实感。

目前,Ming-Flash-Omni 2.0的模型权重及相关推理代码已在Hugging Face等主流开源社区发布。开发者也可通过蚂蚁集团官方平台Ling Studio进行在线体验与接口调用。

推荐关键词

24小时热搜

查看更多内容

大家正在看