三维具身通才智能体LEO：全面掌握感知、推理、规划、行动

要点:
LEO是首个具身通才智能体，以GPT-4等大语言模型为基础，实现了在三维世界中的感知、推理、规划、行动等多任务多模态能力。
该研究填补了多模态大语言模型在三维世界任务上的空白，通过高效学习策略和数据生成方法，构建了一个能够在真实场景中应用的通才智能体。
LEO在三维场景问答、物体描述、具身推理等任务上表现优异，具备在家庭助理、智能导航、机器人操作等领域广泛应用的潜力。

站长之家（ChinaZ.com）12月8日消息:近年来，多模态大语言模型在自然语言处理、视觉理解和机器人领域取得了显著进展。然而，这些模型主要基于二维图片和文本数据，对于理解和交互于三维世界的任务存在一定的欠缺。为解决这一问题，北京通用人工智能研究院携手北京大学、卡耐基梅隆大学和清华大学的研究人员，提出了具备感知、推理、规划、行动等多任务多模态能力的首个三维世界具身通才智能体LEO。

论文链接:https://arxiv.org/abs/2311.12871
项目主页:https://embodied-generalist.github.io/
代码链接:https://github.com/embodied-generalist/embodied-generalist

LEO的核心设计思想是以大语言模型为基础，在两个关键阶段进行训练:三维视觉-语言对齐和视觉-语言-动作指令微调。通过采用共享的架构和权重，LEO能够在不同任务之间实现无缝切换，构建了一个统一的处理框架。在数据集的收集方面，研究团队通过两阶段训练策略，包括物体级别和场景级别的大规模数据集，为LEO的训练提供了坚实基础。

研究的主要贡献体现在三个方面:首先，构建了在三维世界中完成感知、定位、推理、规划和动作执行的LEO。其次，提出了高效的学习策略，通过将以物体为中心的三维表征与语言模型相结合，成功打通了视觉-语言-动作的通道。最后，研发了生成高质量三维视觉语言数据的方法，构建了大规模的视觉-语言-动作指令微调数据集。

LEO的应用前景广泛，作为未来的家庭助理，它能够与人进行交互，调整家居布局、帮助找到物品、提供各种问题的建议。在导航和操控能力方面，LEO可应用于购物中心的智能引导、家居自动化任务以及物流中心的物品整理和搬运，展现出巨大的应用价值。

LEO的出现标志着具身通才智能体在三维世界任务上取得了新的突破，为实现通用人工智能迈出了重要一步。

“Leo篮人说”百家号体育领域排名-大v推荐排行榜作者有哪些？

2019-12-245875阅读

首页

IT业界

热点视频

站长资讯

好物榜

更多分类

更多主题

三维具身通才智能体LEO：全面掌握感知、推理、规划、行动

推荐关键词

24小时热搜

大家正在看

入行精英强化训练营：我们的老师不是Vivian也不是Leo

“Leo肖”推广价格预估，靠谱的自媒体推广平台

利欧数字推出营销行业AIGC生态平台「LEO AIAD」

如果巴菲特不碰比特币和黄金，你还敢投 Bitfinex 的 LEO 吗？

融资117亿，如今Telegram的lEO却是一次大鲸出货？

“Leo篮人说”百家号体育领域排名-大v推荐排行榜作者有哪些？

@勇仔leo 年涨粉800万，被唱衰的美妆赛道还能卷出新顶流？

LEOMASTER焕新发布LEO隐私卫士4.0版本——为你而变!

千万像素起索尼LT26i/Altek Leo拍照对比

LEO隐私卫士3.6版本升级发布保护隐私首页一键操作

加密货币交易所Bitfinex计划通过发行“LEO” 代币筹集10亿美元

1400W带3倍光变安卓拍照altek Leo赏析

1400W像素3X光变！拍照机皇altek Leo图赏

1400万象素光学变焦安卓机 Altek A14 Leo评测

隐私浏览器Brave发布“匿名且安全”AI聊天机器人Leo 承诺不用户数据训练AI

首页

IT业界

热点视频

站长资讯

好物榜

更多分类

更多主题

三维具身通才智能体LEO：全面掌握感知、推理、规划、行动

推荐关键词

24小时热搜

大家正在看

入行精英强化训练营：我们的老师不是Vivian也不是Leo

“Leo肖”推广价格预估，靠谱的自媒体推广平台

利欧数字推出营销行业AIGC生态平台「LEO AIAD」

如果巴菲特不碰比特币和黄金，你还敢投 Bitfinex 的 LEO 吗？

融资117亿，如今Telegram的lEO却是一次大鲸出货？

“Leo篮人说”百家号体育领域排名-大v推荐排行榜作者有哪些？

@勇仔leo 年涨粉800万，被唱衰的美妆赛道还能卷出新顶流？

LEOMASTER焕新发布LEO隐私卫士4.0版本——为你而变!

千万像素起 索尼LT26i/Altek Leo拍照对比

LEO隐私卫士3.6版本升级发布保护隐私首页一键操作

加密货币交易所Bitfinex计划通过发行“LEO” 代币筹集10亿美元

1400W带3倍光变 安卓拍照altek Leo赏析

1400W像素3X光变！拍照机皇altek Leo图赏

1400万象素光学变焦安卓机 Altek A14 Leo评测

隐私浏览器Brave发布“匿名且安全”AI聊天机器人Leo 承诺不用户数据训练AI

千万像素起索尼LT26i/Altek Leo拍照对比

1400W带3倍光变安卓拍照altek Leo赏析