智谱开源新一代多模态大模型CogVLM2

站长之家（ChinaZ.com）5月21日消息:智谱·AI最近宣布推出新一代多模态大模型CogVLM2，该模型在关键性能指标上相较于前一代CogVLM有了显著提升，同时支持8K文本长度和高达1344*1344分辨率的图像。CogVLM2在OCRbench基准上性能提升了32%，在TextVQA基准上性能提升了21.9%，显示出强大的文档图像理解能力。尽管CogVLM2的模型大小为19B，但其性能接近或超过了GPT-4V的水平。

微信截图_20240521082943.png

CogVLM2的技术架构在上一代模型的基础上进行了优化，包括一个50亿参数的视觉编码器和一个70亿参数的视觉专家模块，这些模块通过独特的参数设置，精细地建模了视觉与语言序列的交互。这种深度融合策略使得视觉模态与语言模态能够更加紧密地结合，同时保持了模型在语言处理上的优势。此外，CogVLM2在推理时实际激活的参数量仅约120亿，这得益于其精心设计的多专家模块结构，显著提高了推理效率。

在模型效果方面，CogVLM2在多个多模态基准测试中取得了优异的成绩，包括TextVQA、DocVQA、ChartQA、OCRbench、MMMU、MMVet和MMBench等。这些测试涵盖了从文本和图像理解到复杂推理和跨学科任务的广泛能力。CogVLM2的两个模型在多个基准中取得了最先进的性能，同时在其他性能上也能达到与闭源模型相近的水平。

代码仓库:

Github:https://github.com/THUDM/CogVLM2

模型下载:

Huggingface:huggingface.co/THUDM

魔搭社区:modelscope.cn/models/ZhipuAI

始智社区:wisemodel.cn/models/ZhipuAI

Demo体验:

https://modelscope.cn/studios/ZhipuAI/Cogvlm2-llama3-chinese-chat-Demo/summary

CogVLM2技术文档:

https://zhipu-ai.feishu.cn/wiki/OQJ9wk5dYiqk93kp3SKcBGDPnGf

第四届链博会人工智能专区，格创东智全域智能体引领工业AI决策新时代

2026-07-012.8万阅读

首页

IT业界

热点视频

站长资讯

好物榜

更多分类

更多主题

智谱开源新一代多模态大模型CogVLM2

推荐关键词

24小时热搜

大家正在看

发布 | 中心发布《“人工智能+软件” 发展洞察》

探索智慧科技：运动难题，海尔答案

探索智慧科技：饮食难题，海尔答案

探索智慧科技：储鲜难题，海尔答案

天鹜科技入选36氪「2026最具价值成长企业100」，位列人工智能/大模型赛道

荆华密算团队亮相链博会：在人工智能产业链中，密算在哪一环？

第四届链博会人工智能专区，格创东智全域智能体引领工业AI决策新时代

探索智慧科技：海尔外骨骼机器人W3让运动更轻松

探索智慧科技：卡萨帝指挥家冰箱攻克食材解冻慢、口感差难题

合合信息多模态可信AI鉴伪系统亮相中国图像图形大会，人脸伪造拦截率提升8倍

十方融海多模态 AI 交互系统赋能终端硬件亮相河内IBTE展，中国 AI 出海受关注

豆包图像创作模型Seedream 5.0 Pro发布：随手画出精美设计图

自变量机器人王昊：训练世界模型需付出“时间税”，解决模态对齐是当务之急

企业微信AI助理大圆Agent开启内测：群聊、文档都能自动理解

大模型调用成本暴跌90%，盘活数据成为企业AI落地胜负手

卓世科技入选“2026 AI科技小巨人TOP50”,以行业大模型与具身智能大脑构筑AI产业新底座

AI日报：火山引擎发布豆包Seedance2.5等模型；生数Vidu Q3上线华为云；百川智能发布M4 模型

具身智能世界模型公司与机器人本体公司的区别

科技照进现实鸿蒙原生首个3D大模型AI应用V2Fun正式发布

阿里发布首个具身大模型Qwen-Robot系列：三个模型支持协同运转

首页

IT业界

热点视频

站长资讯

好物榜

更多分类

更多主题

智谱开源新一代多模态大模型CogVLM2

推荐关键词

24小时热搜

大家正在看

发布 | 中心发布《“人工智能+软件” 发展洞察》

探索智慧科技：运动难题，海尔答案

探索智慧科技：饮食难题，海尔答案

探索智慧科技：储鲜难题，海尔答案

天鹜科技入选36氪「2026最具价值成长企业100」，位列人工智能/大模型赛道

荆华密算团队亮相链博会：在人工智能产业链中，密算在哪一环？

第四届链博会人工智能专区，格创东智全域智能体引领工业AI决策新时代

探索智慧科技：海尔外骨骼机器人W3让运动更轻松

探索智慧科技：卡萨帝指挥家冰箱攻克食材解冻慢、口感差难题

合合信息多模态可信AI鉴伪系统亮相中国图像图形大会，人脸伪造拦截率提升8倍

十方融海多模态 AI 交互系统赋能终端硬件亮相河内IBTE展，中国 AI 出海受关注

豆包图像创作模型Seedream 5.0 Pro发布：随手画出精美设计图

自变量机器人王昊：训练世界模型需付出“时间税”，解决模态对齐是当务之急

企业微信AI助理大圆Agent开启内测：群聊、文档都能自动理解

大模型调用成本暴跌90%，盘活数据成为企业AI落地胜负手

卓世科技入选“2026 AI科技小巨人TOP50”,以行业大模型与具身智能大脑构筑AI产业新底座

AI日报：火山引擎发布豆包Seedance2.5等模型；生数Vidu Q3上线华为云；百川智能发布M4 模型

具身智能世界模型公司与机器人本体公司的区别

科技照进现实 鸿蒙原生首个3D大模型AI应用V2Fun正式发布

阿里发布首个具身大模型Qwen-Robot系列：三个模型支持协同运转

科技照进现实鸿蒙原生首个3D大模型AI应用V2Fun正式发布