流媒体语音转换新突破！“StreamVoice”成功实现实时转换，仅需124毫秒延迟！

**划重点:**
1. 🚀 StreamVoice是一种新颖的流媒体语言模型（LM）-based零射击语音转换(VC)方法，实现实时转换，并具有较高的转换速度。
2. 🌐 该模型通过采用完全因果关联的上下文感知LM和临时独立的声学预测器，实现了流媒体能力。
3. ⚙️ 为了解决不完整上下文可能导致的性能降级问题，StreamVoice采用了教师引导的上下文预测和语义屏蔽策略。

站长之家（ChinaZ.com）1月29日消息:最近，一支来自中国西北工业大学和字节跳动的研究团队推出了一项名为StreamVoice的创新技术，该技术基于语言模型，专为流媒体场景设计，实现零射击语音转换（VC）。

传统的VC模型通常使用从源语义到声学特征的离线转换，需要完整的源语音，限制了它们在实时场景中的应用。而StreamVoice通过采用全因果上下文感知的LM和临时独立的声学预测器，实现了流媒体能力。该模型在每个自回归时间步骤交替处理语义和声学特征，消除了对完整源语音的需求。

为了解决由于不完整上下文导致的流媒体处理中的性能降级问题，StreamVoice采用了两种策略:

1. 教师引导的上下文预测:在训练期间，教师模型总结当前和未来语义上下文，引导模型对缺失上下文进行预测。

2. 语义屏蔽策略:** 通过从前面损坏的语义和声学输入中促进声学预测，增强上下文学习能力。

值得注意的是，StreamVoice是首个LM-based的流媒体零射击VC模型，没有任何未来先行查看。实验结果展示了StreamVoice在保持与非流媒体VC系统相当的零射击性能的同时，具有流媒体转换能力。

研究团队的未来工作计划包括使用更多训练数据以提高StreamVoice的建模能力，并计划优化流媒体管道，引入高保真度编解码器和低比特率以及统一的流媒体模型。整个StreamVoice管道在单个A100GPU上的转换过程仅需要124毫秒延迟，即使没有工程优化，也比实时速度快2.4倍。

对于该项研究的所有功劳归功于西北工业大学和字节跳动的研究人员。该团队的未来工作计划还包括进一步改进StreamVoice的建模能力，以及优化流媒体管道。如果读者对这项工作感兴趣，可以查看原始论文获取更多详细信息。

论文:https://arxiv.org/abs/2401.11053

facet ai怎么用？AI图片编辑修图工具Facet AI详细使用教程（附产品入口）

2024-04-102.6万阅读

首页

IT业界

热点视频

站长资讯

好物榜

更多分类

更多主题

流媒体语音转换新突破！“StreamVoice”成功实现实时转换，仅需124毫秒延迟！

推荐关键词

24小时热搜

大家正在看

Sora平替？2分钟超长AI视频模型StreamingT2V免费开源试玩地址公布

文本直接生成2分钟视频，即将开源模型StreamingT2V

AI日报：首个AI程序员Devin造假被抓；Sora平替?StreamingT2V试玩地址公布；Udio AI还可以创作喜剧、演讲；XAI发布Grok-1.5Vision多模态模型

CameraCtrl：让文本生成视频实现镜头控制支持AnimateDiff控制镜头

moto X50 Ultra AI手机亮相，搭载联想AI个人智能体

Ctrl-Adapter：专为视频生成设计的Controlnet 提供有效精细控制

moto首款AI手机！moto X50 Ultra官宣

DataCamp官网体验入口数据科学AI在线免费课程资源学习地址

Sam Altman押宝AI产业下一个风口——电力

Meta将在Facebook和Instagram上标记AI生成的内容

IntrinsicAnything：调整图片光照保持物体材质

facet ai怎么用？AI图片编辑修图工具Facet AI详细使用教程（附产品入口）

Jony Ive 和 OpenAI 的 Sam Altman 正在为个人 AI 设备开发寻求资金

AniPortrait官网体验入口腾讯AI音频驱动人脸动画生成工具免费使用地址

Tools4AI官网体验入口 Java实现LAM使用地址

官翻Steam Deck半价出售

moto X50 Ultra即将亮相：搭载联想小天AI个人智能体

AI图片编辑工具Facet怎么用？Facet AI详细使用教程（附产品入口）

ROCm加持出图效率翻倍！AMD RX 7900 XT Linux系统 AI性能体验

首个基于SSM-Transformer混合架构，开源商业大模型Jamba

首页

IT业界

热点视频

站长资讯

好物榜

更多分类

更多主题

流媒体语音转换新突破！“StreamVoice”成功实现实时转换，仅需124毫秒延迟！

推荐关键词

24小时热搜

大家正在看

Sora平替？2分钟超长AI视频模型StreamingT2V免费开源 试玩地址公布

文本直接生成2分钟视频，即将开源模型StreamingT2V

AI日报：首个AI程序员Devin造假被抓；​Sora平替?StreamingT2V试玩地址公布；Udio AI还可以创作喜剧、演讲；XAI发布Grok-1.5Vision多模态模型

CameraCtrl：让文本生成视频实现镜头控制 支持AnimateDiff控制镜头

moto X50 Ultra AI手机亮相，搭载联想AI个人智能体

Ctrl-Adapter：专为视频生成设计的Controlnet 提供有效精细控制

moto首款AI手机！moto X50 Ultra官宣

DataCamp官网体验入口 数据科学AI在线免费课程资源学习地址

Sam Altman押宝AI产业下一个风口——电力

​Meta将在Facebook和Instagram上标记AI生成的内容

IntrinsicAnything：调整图片光照 保持物体材质

facet ai怎么用？AI图片编辑修图工具Facet AI详细使用教程（附产品入口）

Jony Ive 和 OpenAI 的 Sam Altman 正在为个人 AI 设备开发寻求资金

AniPortrait官网体验入口 腾讯AI音频驱动人脸动画生成工具免费使用地址

Tools4AI官网体验入口 Java实现LAM使用地址

官翻Steam Deck半价出售

moto X50 Ultra即将亮相：搭载联想小天AI个人智能体

AI图片编辑工具Facet怎么用？Facet AI详细使用教程（附产品入口）

ROCm加持出图效率翻倍！AMD RX 7900 XT Linux系统 AI性能体验

首个基于SSM-Transformer混合架构，开源商业大模型Jamba

Sora平替？2分钟超长AI视频模型StreamingT2V免费开源试玩地址公布

AI日报：首个AI程序员Devin造假被抓；Sora平替?StreamingT2V试玩地址公布；Udio AI还可以创作喜剧、演讲；XAI发布Grok-1.5Vision多模态模型

CameraCtrl：让文本生成视频实现镜头控制支持AnimateDiff控制镜头

DataCamp官网体验入口数据科学AI在线免费课程资源学习地址

Meta将在Facebook和Instagram上标记AI生成的内容

IntrinsicAnything：调整图片光照保持物体材质

AniPortrait官网体验入口腾讯AI音频驱动人脸动画生成工具免费使用地址