11月26日,国际空间推理基准测试平台SpatialBench发布最新评测结果。阿里巴巴集团研发的视觉理解模型Qwen系列在本次测评中表现突出,其中Qwen3-VL-235B与Qwen2.5-VL-72B两款模型分别以13.5分和12.9分的成绩位列榜单前两位。
测评数据显示,这两款模型的得分已超越多家国际科技企业推出的同类产品,包括Gemini 3.0 Pro Preview(9.6分)与GPT-5.1(7.5分)等知名模型。
值得注意的是,当前技术水平与人类的空间推理能力仍存在明显差距。专业评估显示,人类在处理电路分析、CAD工程及分子生物学等复杂空间推理任务时,基准得分可达80分左右,现有技术尚无法完全替代人类完成这类专业性工作。
据了解,Qwen2.5-VL于2024年对外开放源代码,而Qwen3-VL作为其升级版本,于今年正式发布。新一代模型在视觉感知与多模态推理方面取得显著进展,在32项核心能力评估中表现优异。
该模型具备较强的实用功能,不仅能通过图像完成推理任务,还可基于设计草图或游戏视频片段进行视觉编程。此外,Qwen3-VL特别强化了三维空间检测能力,使搭载该技术的设备能够更准确地判断物体方位和视角变化,实现精准操作。
目前,该系列模型已推出多个版本,涵盖从2B到235B等不同规模,每款均提供指令版和推理版两种模式,受到技术开发团队的广泛关注。普通用户也可通过官方应用免费体验相关功能。
SpatialBench作为近年来备受关注的专业测评体系,主要评估多模态模型在空间、结构和路径等方面的综合推理能力,其测试结果被视为衡量智能技术发展水平的重要参考指标之一。
推荐关键词
24小时热搜
-
热
- 1 沙特申博宣传片真是中国拍的 网友:这风格意境是中国的手笔
- 2 南方人东北购物被店主语气“凶哭”:文化差异导致误解
- 3 女子下班回家发现家门口被贴U盘:新型诈骗手段?
- 4 爸爸送娃撂下就走结果学校没开门:交警协助联系 安全返家
-
热
- 5 宗庆后在黄金地段为员工建廉租房:从不裁45岁以上员工 我算有钱
- 荐 2020年高通骁龙CPU排名 高通骁龙888排名领先