上海AI实验室、Meta联合开发开源模型可为人体生成3D空间音频

要点:
上海AI实验室和Meta联合开发的开源模型能够为人体生成3D空间音频，实现身临其境的3D音场效果。
该模型利用头戴式麦克风的音频信号和人体姿态作为输入，通过多模态融合模式解决音源位置未知、麦克风距离音源较远等技术难题。
尽管取得了在3D空间音频生成方面的技术突破，但目前仅适用于渲染人体音，难以处理非自由音场传播环境，计算量较大难以部署到资源受限的设备上。

站长之家（ChinaZ.com）11月29日消息:近期上海AI实验室与Meta合作推出的开源模型标志着在3D空间音频领域迈出的一大步。该模型通过处理头戴式麦克风的输入音频信号和分析人体姿态关键点，成功地实现了为人体生成3D空间音频的目标。这一技术突破为虚拟环境的沉浸感和临场感提供了关键支持，弥补了目前学术界和企业在听觉方面的疏漏。

然而，从技术层面看，开发这样的3D空间音频模型并非易事。文章指出，面临着三大技术难题，其中包括音源位置未知、麦克风距离音源较远等挑战。为了解决这些问题，研究人员创新性地构建了多模态融合模式，并引入了身体姿态信息，从而成功消除了声源位置的歧义，实现了正确的空间音频生成。

具体而言，模型包括音频编码器、人体姿态编码器和音频解码器等模块。音频编码器处理头戴式麦克风的输入音频信号，通过时间平移对齐不同身体部位的音源位置，最终得到包含各个可能音源位置信息的音频特征表达。人体姿态编码器则分析人体姿态关键点，生成姿态特征表达，为正确生成三维空间音频提供了重要的提示。

项目地址：https://github.com/facebookresearch/SoundingBodies

尽管该模型在技术上取得了显著进展，成功实现了身临其境的3D音场效果，但研究人员也指出了其局限性。目前，该模型仅适用于渲染人体音，难以处理非自由音场传播环境，且计算量较大，难以在资源受限的消费类设备上部署。这一点对于模型的实际应用和推广提出了一定挑战。

综合而言，上海AI实验室和Meta联合开发的这一开源模型为人体生成3D空间音频开辟了新的可能性，为虚拟现实领域的发展贡献了有力的技术支持。然而，未来仍需进一步优化和拓展，以满足更广泛的应用场景和设备要求。

下载次数破39万，CMU、Meta联合发布VQAScore文生图优化方案：Imagen3已采用

2024-11-071.1万阅读

首页

IT业界

热点视频

站长资讯

好物榜

更多分类

更多主题

上海AI实验室、Meta联合开发开源模型可为人体生成3D空间音频

推荐关键词

24小时热搜

大家正在看

摸着Meta过河，百度再战AI眼镜

苹果新项目秘密启动：进军智能眼镜市场对标Meta！

Meta推出新一代智能触觉系统机械手可实现多模态环境感知

首个可保留情感的音频LLM！Meta重磅开源7B-Spirit LM，一网打尽「音频+文本」多模态任务

三星XR智能眼镜2025年面世功能强大或超雷朋Meta

下载次数破39万，CMU、Meta联合发布VQAScore文生图优化方案：Imagen3已采用

AI日报：InstantX推FLUX图像生成黑科技；面部迁移模型HelloMeme；游戏实时生成算法GameGen-X

新西兰初创公司 Alimetry 融资 1800 万美元，推出可穿戴设备助力胃部疾病诊断

专注Robotaxi，才是真正的Robotaxi第一股

兼容以太坊EVM对Statter（STT）的意义与发展前景

又是一年冰雪季！TA就是冬季出游的无忧之选

STT在元宇宙网络平台Statter Network的若干种应用场景

万能防丢神器！曝苹果AirTag 2明年亮相

小米SU7支持无信号OTA：不怕地库没信号！

苹果推出iOS 18.2 Beta 1：Siri接入ChatGPT

现金票成了“里程票” 多家OTA平台深受“黑票代”危害

腾讯START云游戏正式上线小米TV！不用显卡也能4K玩《黑神话：悟空》

VMware重磅官宣！Workstation和Fusion彻底全部免费：支持商用

苹果新游戏应用曝光!将整合 App Store 和 Game Center 功能

苹果发布iOS 18.2 Beta 2：Siri可付费升级ChatGPT Plus

首页

IT业界

热点视频

站长资讯

好物榜

更多分类

更多主题

上海AI实验室、Meta联合开发开源模型 可为人体生成3D空间音频

推荐关键词

24小时热搜

大家正在看

摸着Meta过河，百度再战AI眼镜

苹果新项目秘密启动：进军智能眼镜市场对标Meta！

Meta推出新一代智能触觉系统机械手 可实现多模态环境感知

首个可保留情感的音频LLM！Meta重磅开源7B-Spirit LM，一网打尽「音频+文本」多模态任务

三星XR智能眼镜2025年面世 功能强大或超雷朋Meta

下载次数破39万，CMU、Meta联合发布VQAScore文生图优化方案：Imagen3已采用

AI日报：InstantX推FLUX图像生成黑科技；面部迁移模型HelloMeme；游戏实时生成算法GameGen-X

新西兰初创公司 Alimetry 融资 1800 万美元，推出可穿戴设备助力胃部疾病诊断

专注Robotaxi，才是真正的Robotaxi第一股

兼容以太坊EVM对Statter（STT）的意义与发展前景

又是一年冰雪季！TA就是冬季出游的无忧之选

STT在元宇宙网络平台Statter Network的若干种应用场景

万能防丢神器！曝苹果AirTag 2明年亮相

小米SU7支持无信号OTA：不怕地库没信号！

苹果推出iOS 18.2 Beta 1：Siri接入ChatGPT

现金票成了“里程票” 多家OTA平台深受“黑票代”危害

腾讯START云游戏正式上线小米TV！不用显卡也能4K玩《黑神话：悟空》

VMware重磅官宣！Workstation和Fusion彻底全部免费：支持商用

苹果新游戏应用曝光!将整合 App Store 和 Game Center 功能

苹果发布iOS 18.2 Beta 2：Siri可付费升级ChatGPT Plus

上海AI实验室、Meta联合开发开源模型可为人体生成3D空间音频

Meta推出新一代智能触觉系统机械手可实现多模态环境感知

三星XR智能眼镜2025年面世功能强大或超雷朋Meta