站长之家 - 业界 2025-11-26 15:11

超越Gemini3、GPT5.1!阿里千问登顶空间推理全球冠军

11月26日,国际空间推理基准测试平台SpatialBench发布最新评测结果。阿里巴巴集团研发的视觉理解模型Qwen系列在本次测评中表现突出,其中Qwen3-VL-235B与Qwen2.5-VL-72B两款模型分别以13.5分和12.9分的成绩位列榜单前两位。

测评数据显示,这两款模型的得分已超越多家国际科技企业推出的同类产品,包括Gemini 3.0 Pro Preview(9.6分)与GPT-5.1(7.5分)等知名模型。

阿里视觉理解模型在空间推理测试中取得领先

值得注意的是,当前技术水平与人类的空间推理能力仍存在明显差距。专业评估显示,人类在处理电路分析、CAD工程及分子生物学等复杂空间推理任务时,基准得分可达80分左右,现有技术尚无法完全替代人类完成这类专业性工作。

据了解,Qwen2.5-VL于2024年对外开放源代码,而Qwen3-VL作为其升级版本,于今年正式发布。新一代模型在视觉感知与多模态推理方面取得显著进展,在32项核心能力评估中表现优异。

该模型具备较强的实用功能,不仅能通过图像完成推理任务,还可基于设计草图或游戏视频片段进行视觉编程。此外,Qwen3-VL特别强化了三维空间检测能力,使搭载该技术的设备能够更准确地判断物体方位和视角变化,实现精准操作。

目前,该系列模型已推出多个版本,涵盖从2B到235B等不同规模,每款均提供指令版和推理版两种模式,受到技术开发团队的广泛关注。普通用户也可通过官方应用免费体验相关功能。

SpatialBench作为近年来备受关注的专业测评体系,主要评估多模态模型在空间、结构和路径等方面的综合推理能力,其测试结果被视为衡量智能技术发展水平的重要参考指标之一。

推荐关键词

24小时热搜

查看更多内容

大家正在看