苹果推出降噪语言模型DLM 用于纠正ASR系统中的错误

站长之家（ChinaZ.com）5月28日消息:苹果最近推出了一项新的技术创新，去噪语言模型（DLM），通过大量合成数据的训练，取得了超越以往的成就，实现了自动语音识别(ASR)领域的最新性能水平。

这项技术的核心在于使用文本转语音（TTS）系统创建音频，并将其输入ASR系统，通过这种方式产生了嘈杂的假设，与原始文本进行配对，从而训练DLM。该方法的关键要素包括升级的模型和数据、多说话人TTS系统、各种噪声增强策略以及新的解码技术。

QQ截图20240528140422.png

研究显示，单个DLM可以应用于不同的ASR系统，其性能显著优于传统的基于语言模型（LM）的集束搜索重新评分方法。这一突破意味着精心设计的纠错模型可以取代传统的LM，将ASR系统的准确率提升到一个新的高度。尤其值得注意的是，DLM在LibriSpeech上实现了1.5%的字错误率(WER)，这是不使用外部音频数据时报告的最佳数字之一，证明了其卓越性能。

然而，DLM面临的挑战之一是需要大量的监督训练示例，而这在典型的ASR数据集中是有限的。为了解决这一问题，DLM采用了使用TTS系统生成合成音频的方法，从而扩展了训练数据集的规模。这种创新性的做法为DLM的性能提升提供了更广阔的空间，使其在ASR领域引领潮流。

Seed-TTS功能介绍及免费使用指南字节跳动文生语音模型体验地址入口

2024-06-061.9万阅读

首页

IT业界

热点视频

站长资讯

好物榜

更多分类

更多主题

苹果推出降噪语言模型DLM 用于纠正ASR系统中的错误

推荐关键词

24小时热搜

大家正在看

英特尔团队提出L-MAGIC新技术通过结合语言模型让图像扩散模型生成高质量360度场景

传音手机联手腾讯游戏语音GVoice共同致力于移动语音技术创新

ChatTTS完全指南：文本生成语音模型使用方法教程与免费试用入口

Cartesia发布低延迟语音生成模型Sonic 要复刻ChatGPT实时语音聊天？

AI日报：一夜封王！最强AI模型Claude 3.5来了；腾讯元宝支持千万字文本；Groq上线超强语音转录模型

换了30多种方言，我们竟然没能考倒中国电信的语音大模型

ChatTTS：一个专为对话场景设计的语音生成模型

中国首个！中国电信发布星辰超多方言混说语音大模型

字节推语音生成模型Seed-TTS 擅长感情控制，声音与真人无异

Soul App语音大模型“伶伦”升级，上线“异世界回响”支持跨次元“打电话”

实时识别物体的模型YOLOv10升级：识别延迟减少46%

Seed-TTS功能介绍及免费使用指南字节跳动文生语音模型体验地址入口

Cartesia发布了一个拥有极快推理速度和超低延迟的语音生成模型Sonic

智谱AI与中国银联成立大语言模型联合实验室

ollama是什么？带你了解本地部署大型语言模型的开源框架

Llama3-V: 全新开源视觉大语言模型出世

OpenAI 升级 ChatGPT 语音，使其能够以不同角色的声音说话

Llama3-V：全新开源视觉大语言模型正式亮相

三星：不断探索创新技术，才是始终走在行业前沿的正确方法

Seed-TTS完全指南：字节文生语音使用方法教程与免费体验入口

首页

IT业界

热点视频

站长资讯

好物榜

更多分类

更多主题

苹果推出降噪语言模型DLM 用于纠正ASR系统中的错误

推荐关键词

24小时热搜

大家正在看

英特尔团队提出L-MAGIC新技术 通过结合语言模型让图像扩散模型生成高质量360度场景

传音手机联手腾讯游戏语音GVoice共同致力于移动语音技术创新

ChatTTS完全指南：文本生成语音模型使用方法教程与免费试用入口

Cartesia发布低延迟语音生成模型Sonic 要复刻ChatGPT实时语音聊天？

AI日报：一夜封王！最强AI模型Claude 3.5来了；腾讯元宝支持千万字文本；Groq上线超强语音转录模型

换了30多种方言，我们竟然没能考倒中国电信的语音大模型

ChatTTS：一个专为对话场景设计的语音生成模型

中国首个！中国电信发布星辰超多方言混说语音大模型

字节推语音生成模型Seed-TTS 擅长感情控制，声音与真人无异

Soul App语音大模型“伶伦”升级，上线“异世界回响”支持跨次元“打电话”

实时识别物体的模型YOLOv10升级：识别延迟减少46%

Seed-TTS功能介绍及免费使用指南 字节跳动文生语音模型体验地址入口

Cartesia发布了一个拥有极快推理速度和超低延迟的语音生成模型Sonic

智谱AI与中国银联成立大语言模型联合实验室

ollama是什么？带你了解本地部署大型语言模型的开源框架

Llama3-V: 全新开源视觉大语言模型出世

OpenAI 升级 ChatGPT 语音，使其能够以不同角色的声音说话

Llama3-V：全新开源视觉大语言模型正式亮相

三星：不断探索创新技术，才是始终走在行业前沿的正确方法

Seed-TTS完全指南：字节文生语音使用方法教程与免费体验入口

英特尔团队提出L-MAGIC新技术通过结合语言模型让图像扩散模型生成高质量360度场景

Seed-TTS功能介绍及免费使用指南字节跳动文生语音模型体验地址入口