图像序列基准测试Mementos开源 GPT-4V/Gemini竟看不懂漫画！

要点:
1. 马里兰大学联合北卡教堂山发布了首个专为多模态大语言模型设计的图像序列基准测试Mementos，涵盖真实世界、机器人和动漫图像序列，挑战MLLM在连续图像上的推理能力。
2. 对GPT-4V和Gemini等多模态大语言模型进行测试时发现，它们在图像序列推理中的表现不足20%，甚至在漫画数据集中对人物行为的正确率令人惊讶低下，揭示了它们在处理幻觉、对象识别和行为理解上的不足。
3. Mementos测试发现MLLM在图像序列推理中容易产生两种幻觉:对象幻觉和行为幻觉。错误的对象识别可能导致后续行为识别的不准确，共现效应加剧了行为幻觉问题，而行为幻觉的雪球效应导致错误逐渐累积和加剧。

站长之家（ChinaZ.com）1月31日消息:近期，马里兰大学与北卡教堂山合作发布了Mementos，这是专为多模态大语言模型（MLLM）设计的图像序列基准测试，旨在全面测试这些模型对于真实世界、机器人和动漫图像序列的推理能力。然而，测试结果令人震惊，GPT-4V和Gemini等MLLM在漫画数据集上的准确率不足20%。这揭示了这些模型在处理图像序列中的幻觉、对象和行为理解方面的明显不足。

项目地址:https://mementos-bench.github.io/

测试中发现MLLM容易出现对象幻觉和行为幻觉。对象幻觉是指模型产生不存在的对象，而行为幻觉则是模型产生对象未进行的动作。这些问题的根本原因在于对象识别错误可能导致后续行为识别的不准确，共现效应加剧了行为幻觉问题，而行为幻觉的雪球效应导致错误逐渐累积和加剧。这对于MLLM在处理图像序列中的推理能力提出了重要的挑战。

在具体的图像案例中，MLLM对于漫画中的场景和行为理解存在明显的困难，例如将人物行为错误识别为持武器相互打斗。作者还指出，这些MLLM对于动漫领域的不熟悉需要大幅度的优化和预训练。此外，测试结果还表明，训练数据的局限性对于开源MLLM的推理能力有直接影响，强调了训练数据的重要性。

Mementos测试为多模态大语言模型在图像序列推理方面提供了全面的评估，揭示了它们在处理连续图像中的幻觉、对象和行为理解方面的困难。这对于推动MLLM在图像领域的发展提出了挑战，并强调了进一步研究和优化的迫切性。

破解36年前魔咒！Meta推出反向训练大法消除大模型「逆转诅咒」

2024-04-092.3万阅读

首页

IT业界

热点视频

站长资讯

好物榜

更多分类

更多主题

图像序列基准测试Mementos开源 GPT-4V/Gemini竟看不懂漫画！

推荐关键词

24小时热搜

大家正在看

Meme季来临，交易优质Memecoin就上UZX

MeMenteeBot ：能听懂人话并通过观察自我学习的机器人

孙宇晨接受全球知名行业播客专访：TRON将发力Meme币生态

SOLANA链上火爆Meme币SLERF上线加密货币交易所UZX

扎克伯格称 Meta 需要数年才能从生成式 AI 赚钱

Meta将为智能眼镜引入强大AI功能

SuperMemory官网体验入口 AI知识管理信息整理工具免费使用地址

Meta开放Horizon OS 引发新一轮头显和元宇宙热潮

Meta的Threads日活用户超越 X，成为更受欢迎的社交平台

Meta 在 WhatsApp 中加入实时AI图像生成功能

InstantMesh：只需10秒就能从图片转3D模型

什么是MTIA？Meta研发AI定制芯片有多强性能参数介绍

Meta AI 发布开源基准数据集OpenEQA 促进AI代理的 “体验智能”

Meta推新框架OPT2I 提高SD图像生成一致性

Meta 推出 ViewDiff 模型：文本生成多视角 3D 图像

AI延时视频生成工具MagicTime在线体验地址放出

报告称：OpenAI和Meta即将发布具有人类推理能力的AI模型

破解36年前魔咒！Meta推出反向训练大法消除大模型「逆转诅咒」

纽约时报指责OpenAI、谷歌和Meta绕过法律边界进行AI训练数据

以人类未来为己任，mentech美碳科技生态大会布局户外低碳社区

首页

IT业界

热点视频

站长资讯

好物榜

更多分类

更多主题

图像序列基准测试Mementos开源 GPT-4V/Gemini竟看不懂漫画！

推荐关键词

24小时热搜

大家正在看

Meme季来临，交易优质Memecoin就上UZX

MeMenteeBot ：能听懂人话并通过观察自我学习的机器人

孙宇晨接受全球知名行业播客专访：TRON将发力Meme币生态

SOLANA链上火爆Meme币SLERF上线加密货币交易所UZX

​扎克伯格称 Meta 需要数年才能从生成式 AI 赚钱

Meta将为智能眼镜引入强大AI功能

SuperMemory官网体验入口 AI知识管理信息整理工具免费使用地址

Meta开放Horizon OS 引发新一轮头显和元宇宙热潮

Meta的Threads日活用户超越 X，成为更受欢迎的社交平台

Meta 在 WhatsApp 中加入实时AI图像生成功能

InstantMesh：只需10秒就能从图片转3D模型

什么是MTIA？Meta研发AI定制芯片有多强性能参数介绍

Meta AI 发布开源基准数据集OpenEQA 促进AI代理的 “体验智能”

Meta推新框架OPT2I 提高SD图像生成一致性

Meta 推出 ViewDiff 模型：文本生成多视角 3D 图像

AI延时视频生成工具MagicTime在线体验地址放出

报告称：OpenAI和Meta即将发布具有人类推理能力的AI模型

破解36年前魔咒！Meta推出反向训练大法消除大模型「逆转诅咒」

纽约时报指责OpenAI、谷歌和Meta绕过法律边界进行AI训练数据

以人类未来为己任，mentech美碳科技生态大会布局户外低碳社区

扎克伯格称 Meta 需要数年才能从生成式 AI 赚钱