AI语音识别工具Universal-1：38秒可以处理60分钟音频比fast Whisper更快

划重点:
- 💡 Universal-1在多语言环境中取得了行业领先的表现，提供准确且鲁棒的多语言语音转文字功能。
- 💡 Universal-1能够精确估计时间戳，提高了说话者辨识和音视频编辑等下游应用的准确性。
- 💡 AssemblyAI 利用最先进的 ASR 研究，构建了 Universal-1模型，并通过 Google Cloud TPUs 等基础设施实现了高效的训练和推理。

站长之家（ChinaZ.com）4月7日消息:AssemblyAI 最新研究成果展示了他们的 Universal-1模型在多语言环境中的表现，该模型在准确性和鲁棒性方面均取得了行业领先地位。先说结果，Universal-1比Whisper Large-v3更准确，比fast Whisper更快，38秒可以处理60分钟音频。

Universal-1训练于1250万小时的多语言音频数据，采用了 Conformer RNN-T 架构，在英语、西班牙语和德语的语音转文字准确性上均取得10% 以上的提升。该模型还展现出多语言转录能力，能够在单个音频文件中转录多种语言。

除了语音转文字准确性外，Universal-1还具有精确的时间戳估计能力，对于音视频编辑和说话者辨识等应用具有重要意义。该模型通过优化的解码器实现了13% 的时间戳准确度提升，比 Whisper Large-V3提高了26%。此外，Universal-1还实现了高效的并行推理，比 Whisper Large-V3在相同硬件上实现了5倍的加速。

为了构建 Universal-1，AssemblyAI 利用了 Conformer 编码器和 RNN-T 模型，通过大规模的自监督学习框架和大量的标记数据进行训练。他们利用 Google Cloud TPUs 和 JAX 进行训练，构建了可靠的基础设施和系统设计。除了多语音数据外，他们还结合了各种数据增强方法，提高了模型的准确性和鲁棒性。

AssemblyAI 的研究展示了他们在语音 AI 领域的领先地位，Universal-1模型在多语言环境下取得了令人瞩目的表现，为客户提供了准确、忠实和鲁棒的语音转文字能力。值得一提的是，Universal-1非开源，仅提供API调用。

产品入口：https://top.aibase.com/tool/universal-1

三星将“AI Home”扩展至多款家用电器，让“Screens Everywhere”愿景成真

2024-12-201.4万阅读

首页

IT业界

热点视频

站长资讯

好物榜

更多分类

更多主题

AI语音识别工具Universal-1：38秒可以处理60分钟音频比fast Whisper更快

推荐关键词

24小时热搜

大家正在看

在无人注意的蓝海里，PixVerse正踏上登神长阶。

三星将“AI Home”扩展至多款家用电器，让“Screens Everywhere”愿景成真

AI日报：5秒一个视频！PixVerse V3.5上线；雷军千万年薪挖角AI天才少女；比亚迪启动人形机器人项目；支付宝AI视觉搜索产品“探一下”

Arm Neoverse 赋能 AWS Graviton4 处理器，加速云计算创新

多家银行采用AI面试进行招聘：1个AI面试官1天完成2500场面试

AI日报：字节重磅推出豆包视觉理解模型；AI“魔改”宠物跳舞爆火；OpenAI开放满血o1模型API；即梦AI上线海报生成功能

一台搞定所有需求！ThinkPad X1 Carbon Aura AI元启版开启AI办公新时代

AI日报：广电总局整治AI“魔改”视频乱象；Hailuo AI上线AI语音克隆功能；OpenAI将发布全新Sora

AI工具营销，现在是时候布局PC端了

AI日报：AI假冒名人直播带货违法；OpenAI o3 模型能耗惊人；AI技术将助推iPhone销量

AI日报：理想汽车AI大模型APP将上线；小米搭建GPU万卡集群投入AI；Deepseek V3开源；ChatGPT搜索有被操纵风险

国产之光DeepSeek把AI大佬全炸出来了！671B大模型训练只需此前算力1/10，细节全公开

腾讯红杉投出AI独角兽，要IPO了

个人智能体“小天”加持，ThinkPad X1 Carbon Aura AI刷新商务办公效率

AI助手会成为AI OS吗

京东开售ThinkPad X1 Carbon Aura AI元启版购机晒单可获赠双重好礼

亚马逊联合英伟达举办AI路演大赛，AI新星PromptBio入围6强

WPS升级校对能力，用AI提升校对质量

AI日报：可灵AI上线AI模特功能；字节今年AI投入近BAT总和；ChatGPT本月第二次大规模宕机；抖音引入音频审核大模型

AI日报：OpenAI重磅上线Sora；智谱AI免费多模态模型GLM-4V-Flash；腾讯云打造AI代码助手

首页

IT业界

热点视频

站长资讯

好物榜

更多分类

更多主题

AI语音识别工具Universal-1：38秒可以处理60分钟音频 比fast Whisper更快

推荐关键词

24小时热搜

大家正在看

在无人注意的蓝海里，PixVerse正踏上登神长阶。

三星将“AI Home”扩展至多款家用电器，让“Screens Everywhere”愿景成真

AI日报：5秒一个视频！PixVerse V3.5上线；雷军千万年薪挖角AI天才少女；比亚迪启动人形机器人项目；支付宝AI视觉搜索产品“探一下”

Arm Neoverse 赋能 AWS Graviton4 处理器，加速云计算创新

多家银行采用AI面试进行招聘：1个AI面试官1天完成2500场面试

AI日报：字节重磅推出豆包视觉理解模型；AI“魔改”宠物跳舞爆火；OpenAI开放满血o1模型API；即梦AI上线海报生成功能

一台搞定所有需求！ThinkPad X1 Carbon Aura AI元启版开启AI办公新时代

AI日报：广电总局整治AI“魔改”视频乱象；Hailuo AI上线AI语音克隆功能；OpenAI将发布全新Sora

AI工具营销，现在是时候布局PC端了

AI日报：AI假冒名人直播带货违法；OpenAI o3 模型能耗惊人；AI技术将助推iPhone销量

AI日报：理想汽车AI大模型APP将上线；小米搭建GPU万卡集群投入AI；Deepseek V3开源；ChatGPT搜索有被操纵风险

国产之光DeepSeek把AI大佬全炸出来了！671B大模型训练只需此前算力1/10，细节全公开

腾讯红杉投出AI独角兽，要IPO了

个人智能体“小天”加持，ThinkPad X1 Carbon Aura AI刷新商务办公效率

AI助手会成为AI OS吗

京东开售ThinkPad X1 Carbon Aura AI元启版 购机晒单可获赠双重好礼

亚马逊联合英伟达举办AI路演大赛，AI新星PromptBio入围6强

WPS升级校对能力，用AI提升校对质量

AI日报：可灵AI上线AI模特功能；字节今年AI投入近BAT总和；ChatGPT本月第二次大规模宕机；抖音引入音频审核大模型

AI日报：OpenAI重磅上线Sora；智谱AI免费多模态模型GLM-4V-Flash；腾讯云打造AI代码助手

AI语音识别工具Universal-1：38秒可以处理60分钟音频比fast Whisper更快

京东开售ThinkPad X1 Carbon Aura AI元启版购机晒单可获赠双重好礼