清华大学开发出新视觉语言模型可更准确理解 GUI

站长之家（ChinaZ.com）12月27日消息:清华大学智普AI的研究人员开发了一种新的视觉语言模型（VLM），名为 CogAgent。该模型专门设计用于理解和导航图形用户界面(GUI)。

CogAgent 通过采用低分辨率和高分辨率图像编码器而脱颖而出。这种双编码器系统允许模型处理和理解复杂的 GUI 元素和文本内容，这是有效 GUI 交互的关键要求。

CogAgent 的架构具有独特的高分辨率跨模块，这是其性能的关键。该模块使模型能够有效处理高分辨率输入（1120x1120像素），这对于识别小型 GUI 元素和文本至关重要。

QQ截图20231227153006.jpg

CogAgent 在各种任务中优于现有的基于 LLM 的方法，特别是在 PC 和 Android 平台的 GUI 导航方面。该模型还在多个文本丰富和一般视觉问答基准上表现优异。

这项研究的结果表明，CogAgent 代表了 VLM 的重大飞跃，特别是在涉及 GUI 的环境中。其在可管理的计算框架内处理高分辨率图像的创新方法使其有别于现有方法。该模型在不同基准测试中优异的性能表明其在自动化涉及 GUI 操作和解释的复杂任务方面的潜力。

CogAgent 的潜在应用包括:

自动化 GUI 操作，例如点击按钮、输入文本和选择菜单。
提供 GUI 帮助和指导，例如解释功能和提供操作说明。
开发新的 GUI 设计和交互方式。

CogAgent 仍处于早期开发阶段，但其潜在影响是巨大的。该模型有可能彻底改变我们与计算机交互的方式。

地址：https://github.com/THUDM/CogVLM

雷军透露小米澎程提供三款桌子初衷：很多孩子在车里吃饭、写作业

2026-08-011.7万阅读

首页

IT业界

热点视频

站长资讯

好物榜

更多分类

更多主题

清华大学开发出新视觉语言模型可更准确理解 GUI

推荐关键词

24小时热搜

大家正在看

“骁龙AI+eSIM领航计划”启动中国联通、京东与高通携手推动AI+eSIM终端产品落地

别家也有旋转座椅和滑轨小米澎程有啥不一样？一文看懂

王腾主力机依旧是REDMI K90 Pro Max 网友追问是否换K100：本人回应

持续两代的铝合金被淘汰！iPhone 20重返玻璃机身

小米澎湃OS3升级一览：超级岛持续扩容一键出示麦当劳取餐码

天猫优品线下店怎么样？1.2万家合作门店纳入统一管理体系

竖屏看代码超爽双模显示器HKC办公也专业

学生党想换游戏鼠标，联想极光GM11 Pro值得重点看

飞书深诺携Marvy 2.0亮相ChinaJoy 2026：以 Agent OS重构游戏出海增长新范式

雷军透露小米澎程提供三款桌子初衷：很多孩子在车里吃饭、写作业

2026增压泵哪个品牌值得推荐：先看这几点

双屏笔记本选购指南：华硕灵耀14双屏2026适合哪些人

有兄弟必捧杯！重庆啤酒举办兄弟接力赛，向余望带队扎起

考拉悠然携Geek Mind亮相APEC数字周：以世界模型推动具身智能走向真实世界

6000元档轻薄本推荐，华硕a豆14 Air 2026首选

增速领跑新势力！极氪7月交付新车35837辆同比暴涨111%

新势力交付速度领跑！鸿蒙智行7月交付45046台累计交付破148万大关

理想汽车：7月交付新车30468辆累计交付破176万辆

小米首款！REDMI K100 Pro Max搭载185Hz高刷电竞屏

不到30万澎程一出雷军今年目标稳了！小米：今年7月汽车交付量持续超3万台

首页

IT业界

热点视频

站长资讯

好物榜

更多分类

更多主题

清华大学开发出新视觉语言模型 可更准确理解 GUI

推荐关键词

24小时热搜

大家正在看

“骁龙AI+eSIM领航计划”启动 中国联通、京东与高通携手推动AI+eSIM终端产品落地

别家也有旋转座椅和滑轨 小米澎程有啥不一样？一文看懂

王腾主力机依旧是REDMI K90 Pro Max 网友追问是否换K100：本人回应

持续两代的铝合金被淘汰！iPhone 20重返玻璃机身

小米澎湃OS3升级一览：超级岛持续扩容 一键出示麦当劳取餐码

天猫优品线下店怎么样？1.2万家合作门店纳入统一管理体系

竖屏看代码超爽 双模显示器HKC办公也专业

学生党想换游戏鼠标，联想极光GM11 Pro值得重点看

飞书深诺携Marvy 2.0亮相ChinaJoy 2026：以 Agent OS重构游戏出海增长新范式

雷军透露小米澎程提供三款桌子初衷：很多孩子在车里吃饭、写作业

2026增压泵哪个品牌值得推荐：先看这几点

双屏笔记本选购指南：华硕灵耀14双屏2026适合哪些人

有兄弟必捧杯！重庆啤酒举办兄弟接力赛，向余望带队扎起

考拉悠然携Geek Mind亮相APEC数字周：以世界模型推动具身智能走向真实世界

6000元档轻薄本推荐，华硕a豆14 Air 2026首选

增速领跑新势力！极氪7月交付新车35837辆 同比暴涨111%

新势力交付速度领跑！鸿蒙智行7月交付45046台 累计交付破148万大关

理想汽车：7月交付新车30468辆 累计交付破176万辆

小米首款！REDMI K100 Pro Max搭载185Hz高刷电竞屏

不到30万澎程一出 雷军今年目标稳了！小米：今年7月汽车交付量持续超3万台

清华大学开发出新视觉语言模型可更准确理解 GUI

“骁龙AI+eSIM领航计划”启动中国联通、京东与高通携手推动AI+eSIM终端产品落地

别家也有旋转座椅和滑轨小米澎程有啥不一样？一文看懂

小米澎湃OS3升级一览：超级岛持续扩容一键出示麦当劳取餐码

竖屏看代码超爽双模显示器HKC办公也专业

增速领跑新势力！极氪7月交付新车35837辆同比暴涨111%

新势力交付速度领跑！鸿蒙智行7月交付45046台累计交付破148万大关

理想汽车：7月交付新车30468辆累计交付破176万辆

不到30万澎程一出雷军今年目标稳了！小米：今年7月汽车交付量持续超3万台