清华大学团队推出RTFS-Net:革新视听语音分离，百万参数实现高效性能

**划重点:**
1. 🎙️ RTFS-Net是首个采用少于100万个参数的视听语音分离方法，通过压缩-重建策略显著减少计算复杂度。
2. 🌐 针对传统视听语音分离方法的问题，RTFS-Net创新性地解决了时域和时频域方法的挑战，提高了在复杂环境中的性能。
3. 🚀 在三个基准多模态语音分离数据集上，RTFS-Net在大幅降低模型参数和计算复杂度的同时，接近或超越了当前最先进的性能。

站长之家（ChinaZ.com）3月6日消息:清华大学的胡晓林团队最近推出了一项创新性的视听语音分离方法，称为RTFS-Net。这一方法通过采用压缩-重建的策略，不仅实现了百万参数以下的视听语音分离，而且显著减少了计算复杂度，为音视频分离领域带来了新的视角。

传统的视听语音分离方法通常依赖于复杂的模型和大量的计算资源，尤其在嘈杂背景或多说话者场景下性能受到限制。RTFS-Net通过创新性地解决时域和时频域方法的挑战，突破了这些限制。时域方法提供高质量的音频分离效果，但计算复杂度高，而时频域方法虽然计算效率更高，却一直面临缺乏独立建模、未充分利用多个感受野的视觉线索和对复数特征处理不当等问题。

RTFS-Net的关键在于引入了RTFS块，该块通过双路径架构在时间和频率两个维度上对音频信号进行有效处理。具体来说，RTFS块首先进行时间和频率维度的压缩，然后在压缩后的维度上进行独立建模，最后通过融合模块将两个维度的信息合并。这一策略不仅减少了计算复杂度，还保持了对音频信号的高度敏感性和准确性。

此外，RTFS-Net还引入了跨维注意力融合（CAF）模块，有效融合音频和视觉信息，提高了语音分离效果。CAF模块采用深度和分组卷积操作生成注意力权重，动态调整输入特征的重要性，通过对视觉和听觉特征应用注意力权重，实现在多个维度上聚焦于关键信息。

最终，RTFS-Net的实验结果表明，在三个基准多模态语音分离数据集上，该方法在大幅降低模型参数和计算复杂度的同时，接近或超越了当前最先进的性能。通过不同数量的RTFS块的变体展示了在效率和性能之间的权衡，其中RTFS-Net-6在性能与效率方面取得了良好的平衡，而RTFS-Net-12在所有测试的数据集上表现最佳，证明了时频域方法在处理复杂音视频同步分离任务中的优势。

这一创新性的视听语音分离方法为提高AVSS性能提供了新的思路，不仅降低了计算复杂度和参数数量，而且在保持显著性能提升的同时，为音视频分离领域注入了更多创新和高效的架构。

论文地址:https://arxiv.org/abs/2309.17189
代码地址:https://github.com/spkgyk/RTFS-Net（即将发布）

facet ai怎么用？AI图片编辑修图工具Facet AI详细使用教程（附产品入口）

2024-04-102.7万阅读

首页

IT业界

热点视频

站长资讯

好物榜

更多分类

更多主题

清华大学团队推出RTFS-Net:革新视听语音分离，百万参数实现高效性能

推荐关键词

24小时热搜

大家正在看

再见，AI意识先驱：Daniel Dennett

statter network（STT）模块化开发平台的崛起与元宇宙生态前景

Infinity AI怎么用？Infinity AI详细使用教程

开源AI平台Lightning AI发布AI编译器“Thunder”以加速模型训练

Ctrl-Adapter：专为视频生成设计的Controlnet 提供有效精细控制

facet ai怎么用？AI图片编辑修图工具Facet AI详细使用教程（附产品入口）

moto X50 Ultra AI手机亮相，搭载联想AI个人智能体

据称Stability AI资金告急，无法支付租用的云GPU账单

AI图片编辑工具Facet怎么用？Facet AI详细使用教程（附产品入口）

moto首款AI手机！moto X50 Ultra官宣

Stability AI宣布裁员20人，约占员工总数的10%

Mutable AI：自动将你的GitHub代码库转换维基文档

我们开源啦!一键部署免费使用!Kubernetes上直接运行大数据平台!

Meta AI 发布开源基准数据集OpenEQA 促进AI代理的 “体验智能”

AI大模型搜索之战开启，胜出黑马竟是ta？

百亿tokens免费额度，清华系明星AI公司的羊毛薅起来

Archetype AI发布可深入理解世界的基础模型Newton

优爱腾芒要打击会员共享：请好好学习Netflix式「以柔克刚」

Cohere发布Toolkit AI工具包一个专为企业定制的知识助手

Parler-TTS官网体验入口 AI语音生成工具免费使用地址

首页

IT业界

热点视频

站长资讯

好物榜

更多分类

更多主题

清华大学团队推出RTFS-Net:革新视听语音分离，百万参数实现高效性能

推荐关键词

24小时热搜

大家正在看

再见，AI意识先驱：Daniel Dennett

statter network（STT）模块化开发平台的崛起与元宇宙生态前景

Infinity AI怎么用？Infinity AI详细使用教程

开源AI平台Lightning AI发布AI编译器“Thunder”以加速模型训练

Ctrl-Adapter：专为视频生成设计的Controlnet 提供有效精细控制

facet ai怎么用？AI图片编辑修图工具Facet AI详细使用教程（附产品入口）

moto X50 Ultra AI手机亮相，搭载联想AI个人智能体

据称Stability AI资金告急，无法支付租用的云GPU账单

AI图片编辑工具Facet怎么用？Facet AI详细使用教程（附产品入口）

moto首款AI手机！moto X50 Ultra官宣

Stability AI宣布裁员20人，约占员工总数的10%

Mutable AI：自动将你的GitHub代码库转换维基文档

我们开源啦!一键部署免费使用!Kubernetes上直接运行大数据平台!

Meta AI 发布开源基准数据集OpenEQA 促进AI代理的 “体验智能”

AI大模型搜索之战开启，胜出黑马竟是ta？

百亿tokens免费额度，清华系明星AI公司的羊毛薅起来

Archetype AI发布可深入理解世界的基础模型Newton

优爱腾芒要打击会员共享：请好好学习Netflix式「以柔克刚」

Cohere发布Toolkit AI工具包 一个专为企业定制的知识助手

Parler-TTS官网体验入口 AI语音生成工具免费使用地址

Cohere发布Toolkit AI工具包一个专为企业定制的知识助手