站长之家 - 业界 2025-01-28 15:02

阿里云通义开源Qwen2.5-VL:视觉AI 超越GPT-4o

<a href="//m.chinaz.com/tags/aliyun.shtml" target="_blank">阿里云</a>通义推出<a href="//m.chinaz.com/tags/835650.shtml" target="_blank">视觉模型</a> <a href="//m.chinaz.com/tags/932444.shtml" target="_blank">Qwen2.5-VL</a>

阿里云通义推出视觉模型 Qwen2.5-VL

阿里云通义近日开源了其最新的视觉模型 Qwen2.5-VL,该模型推出三个版本:3B、7B 和 72B。其中,旗舰版 Qwen2.5-VL-72B 在 13 项权威评测中夺得视觉理解冠军,超越了 GPT-4o 和 Claude3.5。

Qwen2.5-VL 模型能够更准确地解析图像内容,并支持超过 1 小时的视频理解。它可以在视频中搜索特定事件,并对视频的不同时间段进行要点总结,帮助用户快速有效地提取视频中的关键信息。

此外,Qwen2.5-VL 还可以无需微调就变身为一个能够操控手机和电脑的 AI 视觉智能体(Visual Agents),实现给指定朋友发送祝福、电脑修图、手机订票等多步骤复杂操作。

Qwen2.5-VL 不仅擅长识别常见物体,还能够分析图像中的文本、图表、图标、图形和布局。它还将 OCR 识别能力提升到了一个新的水平,增强了多场景、多语言和多方向的文本识别和定位能力。

在信息抽取方面,Qwen2.5-VL 也进行了大幅度增强,以满足日益增长的资质审核、金融商务等数字化、智能化需求。

推荐关键词

24小时热搜

查看更多内容

大家正在看