阿里云通义推出视觉模型 Qwen2.5-VL
阿里云通义近日开源了其最新的视觉模型 Qwen2.5-VL,该模型推出三个版本:3B、7B 和 72B。其中,旗舰版 Qwen2.5-VL-72B 在 13 项权威评测中夺得视觉理解冠军,超越了 GPT-4o 和 Claude3.5。
Qwen2.5-VL 模型能够更准确地解析图像内容,并支持超过 1 小时的视频理解。它可以在视频中搜索特定事件,并对视频的不同时间段进行要点总结,帮助用户快速有效地提取视频中的关键信息。
此外,Qwen2.5-VL 还可以无需微调就变身为一个能够操控手机和电脑的 AI 视觉智能体(Visual Agents),实现给指定朋友发送祝福、电脑修图、手机订票等多步骤复杂操作。
Qwen2.5-VL 不仅擅长识别常见物体,还能够分析图像中的文本、图表、图标、图形和布局。它还将 OCR 识别能力提升到了一个新的水平,增强了多场景、多语言和多方向的文本识别和定位能力。
在信息抽取方面,Qwen2.5-VL 也进行了大幅度增强,以满足日益增长的资质审核、金融商务等数字化、智能化需求。