哈工深发布多模态大模型九天性能提升5%

要点:
九天（JiuTian-LION）是哈尔滨工业大学(深圳)发布的全新多模态大语言模型，通过双层视觉知识增强，在13个视觉语言任务上取得了state-of-the-art性能，特别在Visual Spatial Reasoning上提升了5%。
视觉信息提取不足问题得到解决，九天模型通过渐进式融合细粒度空间感知视觉知识和软提示下的高层语义视觉证据，有效提升了视觉理解能力，减轻了MLLMs的幻觉现象。
新方法框架包括分段指令微调策略和混合适配器，解决了图像级理解任务和区域级定位任务之间的冲突，同时引入了软提示方法以提高高层语义注入的效果。

站长之家（ChinaZ.com）12月4日消息:哈尔滨工业大学（深圳）近期发布了名为九天(JiuTian-LION)的多模态大语言模型，通过融合细粒度空间感知和高层语义视觉知识，取得了在13个视觉语言任务上的state-of-the-art性能，尤其在Visual Spatial Reasoning任务上实现了5%的性能提升。

论文链接:https://arxiv.org/abs/2311.11860

GitHub:https://github.com/rshaojimmy/JiuTian

项目主页:https://rshaojimmy.github.io/Projects/JiuTian-LION

传统的多模态大语言模型在视觉信息提取上存在不足，导致了视觉定位偏差和幻觉等问题。九天模型通过双层视觉知识增强策略，解决了这一问题。

其方法框架包括分段指令微调策略和混合适配器，首次分析了图像级理解任务和区域级定位任务之间的内部冲突，实现了两种任务的互相提升。通过注入细粒度空间感知和高层语义视觉知识，九天在包括图像描述、视觉问题、和视觉定位等17个视觉语言任务上实现了显著的性能提升，其中13个评测任务达到了国际领先水平。

与现有的多模态大语言模型相比，九天通过渐进式融合细粒度空间感知视觉知识和软提示下的高层语义视觉证据，有效地提升了视觉理解能力，生成更准确的文本回应，减少了模型的幻觉现象。总体而言，九天为多模态大语言模型领域带来了新的思路和性能突破，为视觉语言任务的研究提供了有力的支持。

思必驰智能语音携手茅台，打造“国酒级”AI大模型智能会议方案

2024-12-114296阅读

首页

IT业界

热点视频

站长资讯

好物榜

更多分类

更多主题

哈工深发布多模态大模型九天性能提升5%

推荐关键词

24小时热搜

大家正在看

大模型拿单江湖

AI大模型时代，人才的需求已经变了

2024，大模型杀进“决赛圈”

当做应用成为共识，大模型公司拿出了更多弹药

50多款AI眼镜来了，大模型找到了应用救星？

AI日报：阶跃星辰内测视频大模型Step-Video；即梦AI图片2.1模型支持生成文字；腾讯发布混元视频生成大模型

大模型混战这一年：进化之赛、效率之争、落地之战

一手实测豆包新发布的视觉理解大模型，他们真的卷起飞了。

大模型创业“生死局”：融资困难、造血乏力、卖身离场

刚刚，沈向洋官宣通用视觉大模型！无需提示，就能识别万物

OpenAI发布强化微调API，能深度定制超复杂大模型了

华为盘古汽车大模型夺得第一 300+家车企都选它

RockAI出席酷+科技峰会，揭示大模型群体智能新趋势

周鸿祎：AGI发展遇瓶颈智能体和专业大模型将扛大旗

视觉中国与生数科技共拓视觉产业大模型应用

重磅！OpenAI发布满血o1、无限使用，最强大模型来了

百度大模型又拿了个冠军！全部8个维度均第一、7项满分

谷歌史上最强大模型！Gemini 2.0正式发布

思必驰智能语音携手茅台，打造“国酒级”AI大模型智能会议方案

灰豚AI数字人重磅突破，国内最强数字人AI口播软件大模型来袭

首页

IT业界

热点视频

站长资讯

好物榜

更多分类

更多主题

哈工深发布多模态大模型九天 性能提升5%

推荐关键词

24小时热搜

大家正在看

大模型拿单江湖

AI大模型时代，人才的需求已经变了

2024，大模型杀进“决赛圈”

当做应用成为共识，大模型公司拿出了更多弹药

50多款AI眼镜来了，大模型找到了应用救星？

AI日报：阶跃星辰内测视频大模型Step-Video；即梦AI图片2.1模型支持生成文字；腾讯发布混元视频生成大模型

大模型混战这一年： 进化之赛、效率之争、落地之战

一手实测豆包新发布的视觉理解大模型，他们真的卷起飞了。

大模型创业“生死局”：融资困难、造血乏力、卖身离场

刚刚，沈向洋官宣通用视觉大模型！无需提示，就能识别万物

OpenAI发布强化微调API，能深度定制超复杂大模型了

华为盘古汽车大模型夺得第一 300+家车企都选它

RockAI出席酷+科技峰会，揭示大模型群体智能新趋势

周鸿祎：AGI发展遇瓶颈 智能体和专业大模型将扛大旗

视觉中国与生数科技共拓视觉产业大模型应用

重磅！OpenAI发布满血o1、无限使用，最强大模型来了

百度大模型又拿了个冠军！全部8个维度均第一、7项满分

谷歌史上最强大模型！Gemini 2.0正式发布

思必驰智能语音携手茅台，打造“国酒级”AI大模型智能会议方案

灰豚AI数字人重磅突破，国内最强数字人AI口播软件大模型来袭

哈工深发布多模态大模型九天性能提升5%

大模型混战这一年：进化之赛、效率之争、落地之战

周鸿祎：AGI发展遇瓶颈智能体和专业大模型将扛大旗