Meta AI 发布 MMCSG数据集：使用 Project Aria 捕获的 25 小时以上的双向对话

划重点:
- 💡 CHiME-8MMCSG 任务专注于通过智能眼镜录制的对话转录挑战，旨在帮助研究人员解决活动检测和说话者分离等问题。
- 💡 提出的模型利用多模态数据集 MSCSG 数据集，包括音频、视频和 IMU 信号，以提高转录准确性。
- 💡 通过整合各种技术来改善实时对话的转录准确性，包括目标说话者识别 / 定位、说话者活动检测、语音增强、语音识别和对话。

站长之家(ChinaZ.com) 3月2日消息:Meta AI 最近发布了 MMCSG 数据集，该数据集包含使用 Project Aria 录制的25小时以上的双向对话。CHiME-8MMCSG 任务的重点是转录使用智能眼镜录制的对话，这些眼镜配备了多个传感器，包括麦克风、摄像头和惯性测量单元（IMUs）。该数据集旨在帮助研究人员解决问题，如活动检测和说话者分离。该模型的目标是在实时转录中准确记录自然对话的两个方面，考虑到说话者识别、语音识别、对话和多模态信号的整合。

传统的对话转录方法通常仅依赖于音频输入，可能只捕获一些相关信息，尤其是在使用智能眼镜录制的对话等动态环境中。提出的模型利用多模态数据集 MSCSG 数据集，包括音频、视频和 IMU 信号，以增强转录准确性。

该方法整合了各种技术，以提高实时对话的转录准确性，包括目标说话者识别 / 定位、说话者活动检测、语音增强、语音识别和对话。通过整合来自多种模态的信号，如音频、视频、加速度计和陀螺仪，系统旨在提高传统音频系统的性能。此外，在智能眼镜上使用非静态麦克风阵列引入了与音频和视频数据中的运动模糊相关的挑战，该系统通过先进的信号处理和机器学习技术解决了这些挑战。Meta 发布的 MMCSG 数据集为研究人员提供了实际数据，用于训练和评估其系统，促进自动语音识别和活动检测等领域的进展。

CHiME-8MMCSG 任务解决了使用智能眼镜录制的对话的准确实时转录的需求。通过利用多模态数据和先进的信号处理技术，研究人员旨在提高转录准确性，并解决说话者识别和降噪等挑战。MMCSG 数据集的提供为在动态现实环境中开发和评估转录系统提供了宝贵资源。

论文网址:https://ai.meta.com/datasets/mmcsg-dataset/?utm_source=twitter&utm_medium=organic_social&utm_campaign=research&utm_content=image

下载次数破39万，CMU、Meta联合发布VQAScore文生图优化方案：Imagen3已采用

2024-11-072.7万阅读

首页

IT业界

热点视频

站长资讯

好物榜

更多分类

更多主题

Meta AI 发布 MMCSG数据集：使用 Project Aria 捕获的 25 小时以上的双向对话

推荐关键词

24小时热搜

大家正在看

摸着Meta过河，百度再战AI眼镜

苹果新项目秘密启动：进军智能眼镜市场对标Meta！

Meta推出新一代智能触觉系统机械手可实现多模态环境感知

首个可保留情感的音频LLM！Meta重磅开源7B-Spirit LM，一网打尽「音频+文本」多模态任务

下载次数破39万，CMU、Meta联合发布VQAScore文生图优化方案：Imagen3已采用

三星XR智能眼镜2025年面世功能强大或超雷朋Meta

全球顶级开源搜索引擎Elasticsearch仓库突发404！7万多star被一夜清空

AI日报：InstantX推FLUX图像生成黑科技；面部迁移模型HelloMeme；游戏实时生成算法GameGen-X

新西兰初创公司 Alimetry 融资 1800 万美元，推出可穿戴设备助力胃部疾病诊断

2024年TCS网络安全研讨会顺利召开

苹果推出iOS 18.2 Beta 1：Siri接入ChatGPT

锐西科技凭借卓越技术能力荣获CSA权威认可

专注Robotaxi，才是真正的Robotaxi第一股

OurBMC社区Meetup之走进统信成功举办，共筑BMC技术根生态

苹果发布iOS 18.2 Beta 2：Siri可付费升级ChatGPT Plus

趣丸科技联合港中大（深圳）开源语音大模型MaskGCT，刷新全球多项SOTA

苹果发布iOS 18.2 Beta 2：Siri支持付费升级ChatGPT Plus

兼容以太坊EVM对Statter（STT）的意义与发展前景

PICO 4 Ultra-OTA系统更新：让沉浸式体验再升级

AI日报：SD轻量级3.5 Medium模型免费开放商用；Hedra 推出全新语音克隆功能；微信灰度测试AI问答功能；ComfyUI新神器ComfyUI-Detail-Daemon

首页

IT业界

热点视频

站长资讯

好物榜

更多分类

更多主题

Meta AI 发布 MMCSG数据集：使用 Project Aria 捕获的 25 小时以上的双向对话

推荐关键词

24小时热搜

大家正在看

摸着Meta过河，百度再战AI眼镜

苹果新项目秘密启动：进军智能眼镜市场对标Meta！

Meta推出新一代智能触觉系统机械手 可实现多模态环境感知

首个可保留情感的音频LLM！Meta重磅开源7B-Spirit LM，一网打尽「音频+文本」多模态任务

下载次数破39万，CMU、Meta联合发布VQAScore文生图优化方案：Imagen3已采用

三星XR智能眼镜2025年面世 功能强大或超雷朋Meta

全球顶级开源搜索引擎Elasticsearch仓库突发404！7万多star被一夜清空

AI日报：InstantX推FLUX图像生成黑科技；面部迁移模型HelloMeme；游戏实时生成算法GameGen-X

新西兰初创公司 Alimetry 融资 1800 万美元，推出可穿戴设备助力胃部疾病诊断

2024年TCS网络安全研讨会顺利召开

苹果推出iOS 18.2 Beta 1：Siri接入ChatGPT

锐西科技凭借卓越技术能力荣获CSA权威认可

专注Robotaxi，才是真正的Robotaxi第一股

OurBMC社区Meetup之走进统信成功举办，共筑BMC技术根生态

苹果发布iOS 18.2 Beta 2：Siri可付费升级ChatGPT Plus

趣丸科技联合港中大（深圳）开源语音大模型MaskGCT，刷新全球多项SOTA

苹果发布iOS 18.2 Beta 2：Siri支持付费升级ChatGPT Plus

兼容以太坊EVM对Statter（STT）的意义与发展前景

PICO 4 Ultra-OTA系统更新：让沉浸式体验再升级

AI日报：SD轻量级3.5 Medium模型免费开放商用；Hedra 推出全新语音克隆功能；微信灰度测试AI问答功能；ComfyUI新神器ComfyUI-Detail-Daemon

Meta推出新一代智能触觉系统机械手可实现多模态环境感知

三星XR智能眼镜2025年面世功能强大或超雷朋Meta