UC伯克利研究者推大世界模型（LWM）与Gemini 1.5 Pro能力相当

站长之家（ChinaZ.com）2月20日消息:最近，谷歌的Gemini1.5和OpenAI的Sora模型引发热议，但这些模型是否真的能很好地理解世界?以Sora为例，虽然给人们带来了惊喜，但在模拟复杂物理原理方面存在一定局限性，如健身男子倒跑跑步机。随着大型模型的发展，固有的缺点也显现出来，模型在处理现实世界难以用语言描述的内容时表现困难，长程任务也难以处理。

因此，视频模型的出现在一定程度上弥补了这一问题，提供了语言和静态图像所缺少的时间信息，为大型语言模型（LLM）的发展带来新的可能性。然而，由于内存限制、计算复杂性和有限的数据集，从数百万个视频和语言序列的token中学习仍然具有挑战性。

项目地址:https://top.aibase.com/tool/large-world-models

为了解决这些挑战，来自UC伯克利的研究者推出了大世界模型（LWM），利用RingAttention技术对长序列进行可扩展训练，这是一个带有视频生成功能的多模态模型，非常强大，与Gemini1.5Pro的能力相当。这个模型支持100万上下文的文本检索，可以分析超过1小时的视频，并支持视频和图片生成。

该研究在长视频和语言序列上训练了一个具有极大上下文尺寸的transformers模型，为新的检索任务和长视频理解设立了新的标杆。

通过RingAttention、掩码序列打包等方法，研究团队成功训练了数百万长度的多模态序列，提供了处理超过100万token长文本文档和视频的完全开源模型。LWM模型不仅可以根据文本提示生成图像和视频，还能深入理解图片、回答关于图片的问题，表现出优越的长视频理解能力。

总的来说，LWM模型在长视频问题回答方面表现优于业界其他模型，包括谷歌的Gemini Pro和OpenAI的GPT-4。研究者通过多种策略克服了视觉-语言训练的挑战，为处理长视频与语言序列提供了新的思路，如损失加权和使用模型生成的问答数据。该研究的推出将为语言模型更好地理解物理世界打开新的可能性，为人工智能技术的发展带来新的契机。

平均陪伴超2分钟、秒级响应，范志毅数字人世界杯首秀如何引爆AI营销

2026-07-251.9万阅读

首页

IT业界

热点视频

站长资讯

好物榜

更多分类

更多主题

UC伯克利研究者推大世界模型（LWM）与Gemini 1.5 Pro能力相当

推荐关键词

24小时热搜

大家正在看

百度智能云完成64B世界模型512卡训练验证支撑大模型高效Scale

蚂蚁灵波世界模型2.0正式发布！两大首创：小时级实时生成+Agent实时“陪玩”

全面回顾联想集团如何以混合式AI支撑AI世界杯

AI如何重塑2026世界杯：联想集团和FIFA的全球AI作战室

为什么被称为“AI世界杯”？还原联想集团对AI和体育赛事的理解

苹果研发AI模型压缩技术：把270亿参数大模型装进iPhone

世界杯上的中国AI获得了哪些国际认可？联想集团成外媒焦点

中国AI如何服务全球顶级赛事？联想集团从世界杯走向产业复制

面壁智能端侧模型落地三星盖乐世AI

如何提升AI生成3D模型的可用性？企业为什么需要系统化布局

云迹科技WAIC首发“世界价值模型”，服务机器人行业迈入“空间智能”下半场

平均陪伴超2分钟、秒级响应，范志毅数字人世界杯首秀如何引爆AI营销

可灵AI估值千亿，快手“母凭子贵”：国产视频模型三强争霸

世界杯AI技术由谁提供：联想集团让球队、裁判、观众和FIFA各取所需

世界杯AI技术由哪家提供？决赛周高并发下联想集团混合式AI稳定在线

小组赛收官再看“AI世界杯”：联想集团三大赛事AI创新经受完整检验

国产大模型之光Kimi K3火速上线白B.AI 一站式体验全球顶尖AI产品

芯位学科大模型V2.0：让教育AI从“通用回答”走向“专业解答”

世界杯，赢的不止西班牙

全量上线｜花瓣地图Agent版本，开启AI地图探索世界新方式

首页

IT业界

热点视频

站长资讯

好物榜

更多分类

更多主题

UC伯克利研究者推大世界模型（LWM） 与Gemini 1.5 Pro能力相当

推荐关键词

24小时热搜

大家正在看

百度智能云完成64B世界模型512卡训练验证 支撑大模型高效Scale

蚂蚁灵波世界模型2.0正式发布！两大首创：小时级实时生成+Agent实时“陪玩”

全面回顾联想集团如何以混合式AI支撑AI世界杯

AI如何重塑2026世界杯：联想集团和FIFA的全球AI作战室

为什么被称为“AI世界杯”？还原联想集团对AI和体育赛事的理解

苹果研发AI模型压缩技术：把270亿参数大模型装进iPhone

世界杯上的中国AI获得了哪些国际认可？联想集团成外媒焦点

中国AI如何服务全球顶级赛事？联想集团从世界杯走向产业复制

面壁智能端侧模型落地三星盖乐世AI

如何提升AI生成3D模型的可用性？企业为什么需要系统化布局

云迹科技WAIC首发“世界价值模型”，服务机器人行业迈入“空间智能”下半场

平均陪伴超2分钟、秒级响应，范志毅数字人世界杯首秀如何引爆AI营销

可灵AI估值千亿，快手“母凭子贵”：国产视频模型三强争霸

世界杯AI技术由谁提供：联想集团让球队、裁判、观众和FIFA各取所需

世界杯AI技术由哪家提供？决赛周高并发下联想集团混合式AI稳定在线

小组赛收官再看“AI世界杯”：联想集团三大赛事AI创新经受完整检验

国产大模型之光Kimi K3火速上线白B.AI 一站式体验全球顶尖AI产品

芯位学科大模型V2.0：让教育AI从“通用回答”走向“专业解答”

世界杯，赢的不止西班牙

全量上线｜花瓣地图Agent版本，开启AI地图探索世界新方式

UC伯克利研究者推大世界模型（LWM）与Gemini 1.5 Pro能力相当

百度智能云完成64B世界模型512卡训练验证支撑大模型高效Scale