站长之家 - 业界 2026-03-19 09:41

小米自研MiMo-V2-TTS语言合成大模型发布:能说会唱 河南话、粤语等样样精通

<a href="//m.chinaz.com/tags/xiaomi.shtml" target="_blank">小米</a>发布新一代<a href="//m.chinaz.com/tags/yuyinhecheng.shtml" target="_blank">语音合成</a>系统

小米推出新一代语音合成系统 支持多方言与歌唱合成

3月19日,小米公司正式发布了其自主研发的新一代语音合成系统MiMo-V2-TTS。该系统在语音表达的自然度、风格控制及多功能应用方面实现了显著突破。

据悉,该系统采用了创新的音频编码与联合建模架构,通过海量语音数据的训练,实现了对语音风格的精细控制。技术团队介绍,系统能够根据文本内容自动识别语气转折与情感变化,在保持语音自然流畅的同时,精准还原人类说话时的韵律特征。

在歌唱合成方面,该系统同样表现出色,能够准确处理音高与节奏,生成富有表现力的歌声。此外,系统还具备智能文本解析能力,可自动识别标点、语气词等文本特征,并将其转化为相应的语音表达,无需人工干预。

值得关注的是,该系统支持包括东北话、四川话、河南话、粤语在内的多种方言发音,并可进行角色化风格演绎,拓展了其在多样化场景中的应用潜力。

小米语音合成系统技术示意图
小米新一代语音合成系统技术示意图

小米技术负责人表示,MiMo-V2-TTS是公司语音技术发展的重要阶段性成果。未来,公司计划进一步扩展系统对多语种的支持,并探索其与多模态技术的协同应用,推动智能语音交互体验的持续升级。

推荐关键词

24小时热搜

查看更多内容

大家正在看