InternVL:60亿参数视觉语言基础模型填补多模态AGI的差距

划重点:
多模态AGI的关键突破:InternVL模型填补了视觉和视觉语言基础模型在多模态AGI系统中的发展差距。
创新的规模和对齐策略:InternVL通过将视觉基础模型扩展到60亿参数，实现了对LLM的更全面、有效的整合。
性能卓越的多样性:在32个通用视觉语言基准测试中，InternVL在图像分类、文本检索、图像字幕等任务上优于现有方法，展现了其卓越的视觉能力。

站长之家（ChinaZ.com）12月28日消息:近期，人工智能领域一直将视觉和语言的无缝整合作为关注焦点，特别是在大型语言模型（LLMs）的出现下，该领域取得了显著进展。然而，对于多模态AGI系统而言，发展视觉和视觉语言基础模型仍有待迎头赶上。为填补这一差距，来自南京大学、OpenGVLab、上海人工智能实验室、香港大学、香港中文大学、清华大学、中国科技大学和SenseTime Research的研究人员提出了一种创新的模型——InternVL。该模型扩大了视觉基础模型的规模，并使其适应通用的视觉语言任务。

InternVL解决了人工智能领域一个关键问题:视觉基础模型和LLMs之间的发展速度差异。现有模型通常使用基本的“黏合层”来对齐视觉和语言特征，导致参数规模和表示一致性不匹配，这可能阻碍LLMs的充分潜力。

InternVL的方法独特而强大。该模型采用了大规模视觉编码器InternViT-6B和具有80亿参数的语言中间件QLLaMA。该结构具有双重作用:作为感知任务的独立视觉编码器，它与语言中间件协同工作，用于复杂的视觉语言任务和多模态对话系统。模型的训练采用了渐进对齐策略，从对大量嘈杂的图像文本数据进行对比学习开始，然后转向对更精细数据进行生成学习。这一渐进的方法在各种任务中始终提高了模型的性能。

InternVL通过在32个通用视觉语言基准测试中超越现有方法，展示了其在图像和视频分类、图像和视频文本检索、图像字幕、可见问题回答以及多模态对话等各种任务中的卓越能力。这种多样性的能力归功于与LLMs对齐的特征空间，使得该模型能够以出色的效率和准确性处理复杂任务。

InternVL的关键性能方面包括:

该模型可作为独立的视觉编码器或与语言中间件结合，适用于各种任务。
InternVL通过将视觉基础模型扩展到60亿参数，创新性地解决了参数规模不匹配的问题，从而更全面、有效地与LLMs整合。
在32个通用视觉语言基准测试中取得的最先进性能突显了其先进的视觉能力。
在图像和视频分类、图像和视频文本检索、图像字幕、可见问题回答以及多模态对话等任务中表现出色。
与LLMs对齐的特征空间增强了其与现有语言模型的无缝整合能力，进一步拓宽了应用范围。

这项研究在以下几个方面取得了突破:

InternVL是多模态AGI系统中的一大飞跃，填补了发展视觉和视觉语言基础模型的关键差距。
其创新的规模和对齐策略赋予了它多样性和强大的能力，使其在各种视觉语言任务中表现卓越。
该研究有助于推动多模态大型模型的发展，潜在地重塑人工智能和机器学习的未来格局。
项目体验网址:https://top.aibase.com/tool/internvl
论文网址:https://arxiv.org/abs/2312.14238

首届2024AIGC视觉应用论坛在京举办，AI成为视觉行业新基建和新工具

2024-12-164673阅读

首页

IT业界

热点视频

站长资讯

好物榜

更多分类

更多主题

InternVL:60亿参数视觉语言基础模型填补多模态AGI的差距

推荐关键词

24小时热搜

大家正在看

小米SU7最新版本OTA推送：正式接入VLM视觉语言大模型

视觉中国与生数科技共拓视觉产业大模型应用

一手实测豆包新发布的视觉理解大模型，他们真的卷起飞了。

GPT-4o再暴露「弱智」缺陷，大模型无一幸免，港中文等发布「视觉听觉」基准AV-Odyssey：26个任务直指死角问题

字节跳动正式发布豆包视觉理解模型：1元可处理近300张高清图

AI日报：字节重磅推出豆包视觉理解模型；AI“魔改”宠物跳舞爆火；OpenAI开放满血o1模型API；即梦AI上线海报生成功能

PITAKA品牌VI视觉升级，做懂生活的材料创新者

突发！OpenAI发布Canvas，ChatGPT新增史诗级功能

英伟达展示AI模型Fugatto：可修改并生成新声音

轻量化MobileMamba视觉模型来了｜浙大/腾讯优图/华中科大联合出品

Statter Network（STT）：市场更欢迎全流通和经济模型公平的项目

重磅开源！小米自研系统Vela已全面开源：OpenVela亮相GitHub、Gitee

AI日报：阶跃星辰内测视频大模型Step-Video；即梦AI图片2.1模型支持生成文字；腾讯发布混元视频生成大模型

ChatGPT两周年，国产o1大模型们紧追不舍

国产编程语言MoonBit正式被Github收录！两年核心用户数突破3万

AI日报：百川智能金融大模型发布；ChatGPT新增跨对话记忆功能；DeepSeek大模型一开发者将加盟小米；OpenAI最强推理模型o3

大模型拿单江湖

首届2024AIGC视觉应用论坛在京举办，AI成为视觉行业新基建和新工具

AI日报：ChatGPT AI搜索免费开放；谷歌AI视频模型Veo2优于Sora；Midjourney重磅上新个性化模型与情绪板

视觉中国战投企业AiPPT.cn&智谱清言达成战略合作！