Cartesia发布了一个拥有极快推理速度和超低延迟的语音生成模型Sonic

站长之家(ChinaZ.com) 5月30日消息: 据来自 Cartesia 的最新消息，他们今天发布了 Sonic，这是他们在构建实时多模态智能时代的第一步。Sonic 是一个极速的生成语音模型和 API，拥有令人惊叹的低延迟（仅为135毫秒模型延迟），栩栩如生的声音效果，目前只支持英文。

Sonic 采用了全新的状态空间模型架构，有效地建模高分辨率数据，例如音频和视频。在语音方面，经过参数匹配和优化的 Sonic 模型在与广泛使用的 Transformer 相同的数据集上训练，显著提高了音频质量，包括降低20% 的困惑度、降低2倍的单词错误率以及提高1分的 NISQA 质量。

此外，Sonic 具有更低的延迟、更快的推理速度以及更高的吞吐量，为用户带来更出色的体验。Cartesia 还提供了 Web Playground 和低延迟 API，用户可以立即开始体验 Sonic 的强大功能。

创始人在斯坦福大学攻读博士学位期间开创了状态空间模型，为 Sonic 的研发奠定了基础。这种模型是第一个次线性架构，可以在语言和音频等重要模态上匹配 Transformer，同时释放潜在的无限上下文、恒定的状态大小和高吞吐量的推理。

Cartesia 表示，他们很期待与社区一起探讨替代架构，并将很快分享更多信息。如果您也对使智能更快、更便宜、更易获取感兴趣，欢迎通过邮箱 join@cartesia.ai 联系他们。

在这个快速发展的多模态智能时代，Cartesia 的 Sonic 将引领行业，为用户带来全新的体验和可能性。立即体验 Sonic，探索实时多模态智能的未来!

官方体验地址：https://play.cartesia.ai/

Soul 基于多模态模型丰富社交形式，为用户带来多重感官交互的社交盛宴

2024-05-312.0万阅读

首页

IT业界

热点视频

站长资讯

好物榜

更多分类

更多主题

Cartesia发布了一个拥有极快推理速度和超低延迟的语音生成模型Sonic

推荐关键词

24小时热搜

大家正在看

Cartesia发布低延迟语音生成模型Sonic 要复刻ChatGPT实时语音聊天？

多模态模型再进化，已学会看图玩扑克、算“12点”

Soul 基于多模态模型丰富社交形式，为用户带来多重感官交互的社交盛宴

悦灵犀AI多模态重磅更新“视”不可挡

ChatTTS完全指南：文本生成语音模型使用方法教程与免费试用入口

生数科技完成数亿元 Pre-A 轮融资加速布局多模态大模型

多模态模型学会打扑克：表现超越GPT-4v，全新强化学习框架是关键

多模态大模型不够灵活，谷歌DeepMind创新架构Zipper：分开训练再「压缩」

Seed-TTS功能介绍及免费使用指南字节跳动文生语音模型体验地址入口

面壁智能宣布小钢炮模型 MiniCPM 免费商用

ChatTTS：一个专为对话场景设计的语音生成模型

实时识别物体的模型YOLOv10升级：识别延迟减少46%

Gemini视频推理遥遥领先GPT-4o，Jeff Dean连续转发三次，首个视频多模态基准Video-MME来了

OpenAI 升级 ChatGPT 语音，使其能够以不同角色的声音说话

字节推语音生成模型Seed-TTS 擅长感情控制，声音与真人无异

新SD加速模型！相比LCM模型PCM出图又快又稳

ChatTTS功能介绍及免费使用指南文生语音体验地址入口

ChatGPT之父最新预测！中国将有自己的特色大模型

中关村科金大模型+得助ICC智能联络中心，助力企业营销服务升级

AI日报：一夜封王！最强AI模型Claude 3.5来了；腾讯元宝支持千万字文本；Groq上线超强语音转录模型

首页

IT业界

热点视频

站长资讯

好物榜

更多分类

更多主题

Cartesia发布了一个拥有极快推理速度和超低延迟的语音生成模型Sonic

推荐关键词

24小时热搜

大家正在看

Cartesia发布低延迟语音生成模型Sonic 要复刻ChatGPT实时语音聊天？

多模态模型再进化，已学会看图玩扑克、算“12点”

Soul 基于多模态模型丰富社交形式，为用户带来多重感官交互的社交盛宴

悦灵犀AI多模态重磅更新“视”不可挡

ChatTTS完全指南：文本生成语音模型使用方法教程与免费试用入口

生数科技完成数亿元 Pre-A 轮融资 加速布局多模态大模型

多模态模型学会打扑克：表现超越GPT-4v，全新强化学习框架是关键

多模态大模型不够灵活，谷歌DeepMind创新架构Zipper：分开训练再「压缩」

Seed-TTS功能介绍及免费使用指南 字节跳动文生语音模型体验地址入口

面壁智能宣布小钢炮模型 MiniCPM 免费商用

ChatTTS：一个专为对话场景设计的语音生成模型

实时识别物体的模型YOLOv10升级：识别延迟减少46%

Gemini视频推理遥遥领先GPT-4o，Jeff Dean连续转发三次，首个视频多模态基准Video-MME来了

OpenAI 升级 ChatGPT 语音，使其能够以不同角色的声音说话

字节推语音生成模型Seed-TTS 擅长感情控制，声音与真人无异

新SD加速模型！相比LCM模型PCM出图又快又稳

ChatTTS功能介绍及免费使用指南 文生语音体验地址入口

ChatGPT之父最新预测！中国将有自己的特色大模型

中关村科金大模型+得助ICC智能联络中心，助力企业营销服务升级

AI日报：一夜封王！最强AI模型Claude 3.5来了；腾讯元宝支持千万字文本；Groq上线超强语音转录模型

生数科技完成数亿元 Pre-A 轮融资加速布局多模态大模型

Seed-TTS功能介绍及免费使用指南字节跳动文生语音模型体验地址入口

ChatTTS功能介绍及免费使用指南文生语音体验地址入口