苹果研究人员推出Ferret:一种用于图像理解和描述突破性多模态语言模型

划重点:
1. 研究困难:语言学习中的地理信息和语义知识融合展开，提出Ferret模型解决引用和定位问题
2. Ferret模型:采用MLLM为基础的Ferret模型，具备强大的全局理解能力，可同时处理自由文本和引用区域，性能领先传统模型。
3. 应用前景:文章指出Ferret模型可应用于日常交流中，提供了一种新的多模式语言模型，为图像理解和描述领域带来突破性进展。

站长之家（ChinaZ.com）10月30日消息:研究人员在最新的一项研究中介绍了Ferret，这是一款多模式语言模型，旨在实现高级图像理解和描述。该研究聚焦于视觉-语言学习中的关键问题，即如何融合地理信息和语义知识，以便模型能够同时引用和定位图像中的元素。研究指出，引用和定位是两项关键的能力，前者要求模型理解语义描述，后者要求模型在图像中定位相关区域。

为了解决这一问题，哥伦比亚大学和 Apple 的研究人员提出了Ferret模型，这是一款基于MLLM（多模式大语言模型）的新型模型，具备强大的全局理解能力。

Ferret模型的关键特点在于它可以同时处理自由文本和引用区域。它采用了一种混合区域表示方法，结合了离散坐标和连续视觉特征，以处理不同形状的区域，如点、框、涂鸦和复杂多边形。这种灵活性使Ferret能够更准确地理解和描述图像中的元素，提高了人机交互的全面性。

为了训练Ferret模型，研究人员创建了GRIT（Ground-and-Refer Instruction-Tuning）数据集，其中包括1.1百万个样本，用于指导模型进行引用和定位。该数据集包含了不同层次的空间知识，包括区域描述、连接、物体和复杂的推理。通过精心设计的模板，大部分数据从当前的视觉-语言任务中转化而来，如对象识别和短语定位，以用于指导模型。

研究人员还利用ChatGPT/GPT-4等工具，收集了34，000多个引用和定位对话，以帮助模型进行训练。他们还进行了空间感知的负数据挖掘，以增强模型的鲁棒性。Ferret模型表现出高度的开放式空间感知和定位能力，能够在引用和定位任务上表现优于传统模型。此外，研究人员认为引用和定位能力应该融入日常人机交流中，以实现更广泛的应用。

为了评估Ferret模型的性能，研究人员创建了Ferret-Bench，包括三种新类型的任务:引用描述、引用推理和对话中的定位。他们将Ferret与目前使用的最佳MLLM模型进行比较，发现Ferret的性能平均优于它们20.4%。此外，Ferret还具有减少对象幻觉的显著能力。

Ferret模型，它具备了在MLLM中进行精细和开放式引用和定位的能力。Ferret采用了一种混合区域表示方法，配备了独特的空间感知视觉采样器。此外，他们创建了GRIT数据集，用于模型训练，并评估了Ferret在不同任务中的性能。这一研究为多模式语言模型领域带来了突破性进展，为图像理解和描述提供了新的可能性。

项目网址:https://github.com/apple/ml-ferret

论文网址:https://arxiv.org/abs/2310.07704v1

ChatGPT源码推荐：小狐狸ChatGPT付费创作系统完全开源源码

牙科材料新突破，瑞典高端品牌REECHMERRY®（瑞齿美®）领行业新高度

2024-12-171.2万阅读

首页

IT业界

热点视频

站长资讯

好物榜

更多分类

更多主题

苹果研究人员推出Ferret:一种用于图像理解和描述突破性多模态语言模型

推荐关键词

24小时热搜

大家正在看

AGI、GAI、LLM怎么翻译：一大波人工智能外语词“中文名”出炉！

Forrester TEI研究报告：AP勘讯全面测量方案驱动企业实现495% ROI

StarRocks 2024 数据技术峰会圆满收官，Lakehouse引领数据技术新趋势

牙科材料新突破，瑞典高端品牌REECHMERRY®（瑞齿美®）领行业新高度

三星Lifestyle艺术系列打造悦己空间，拥抱诗意生活

让毛绒玩具“活”过来，“大厂前高管”创业，孵化下一个jelly cat

TGA后各方力挺黑神话！官配海信E8为中国技术自信打call

苹果CEO库克：从来没有考虑过Apple Intelligence收费问题

调查发现多数iPhone用户认为Apple Intelligence几乎没什么价值

益生菌什么牌子好？lifespace益倍适当仁不让

知路研修：四年172份牛剑Offer，科研助力留学梦想

容声606WILL养鲜冰箱压轴登场，让幸福“鲜”人一步

泡泡玛特SKULLPANDA系列：潮玩的先锋与文化的碰撞

专业摄影新伴侣：雷克沙Professional Go PSSD，速度与安全并重

“心动的offer”嘉宾张雅琪辞去香港法务工作：跨行自媒体60秒广告报价14万

两部短剧付费8000万后，奇树有鱼决定All in免费

泡泡玛特（09992.HK）Molly与潮流文化的融合

小红书2025年WILL商业大会召开，首次完整发布种草度量解决方案

百度Apollo开放平台10.0发布：框架、算法全面升级单Orin芯片撑起L4自动驾驶

Statter Network（STT）：市场更欢迎全流通和经济模型公平的项目

首页

IT业界

热点视频

站长资讯

好物榜

更多分类

更多主题

苹果研究人员推出Ferret:一种用于图像理解和描述突破性多模态语言模型

推荐关键词

24小时热搜

大家正在看

AGI、GAI、LLM怎么翻译：一大波人工智能外语词“中文名”出炉！

Forrester TEI研究报告：AP勘讯全面测量方案驱动企业实现495% ROI

StarRocks 2024 数据技术峰会圆满收官，Lakehouse引领数据技术新趋势

牙科材料新突破，瑞典高端品牌REECHMERRY®（瑞齿美®）领行业新高度

三星Lifestyle艺术系列打造悦己空间，拥抱诗意生活

让毛绒玩具“活”过来，“大厂前高管”创业，孵化下一个jelly cat

TGA后各方力挺黑神话！官配海信E8为中国技术自信打call

苹果CEO库克：从来没有考虑过Apple Intelligence收费问题

调查发现多数iPhone用户认为Apple Intelligence几乎没什么价值

益生菌什么牌子好？lifespace益倍适当仁不让

知路研修：四年172份牛剑Offer，科研助力留学梦想

容声606WILL养鲜冰箱压轴登场，让幸福“鲜”人一步

泡泡玛特SKULLPANDA系列：潮玩的先锋与文化的碰撞

专业摄影新伴侣：雷克沙Professional Go PSSD，速度与安全并重

“心动的offer”嘉宾张雅琪辞去香港法务工作：跨行自媒体60秒广告报价14万

两部短剧付费8000万后，奇树有鱼决定All in免费

泡泡玛特（09992.HK）Molly与潮流文化的融合

小红书2025年WILL商业大会召开，首次完整发布种草度量解决方案

百度Apollo开放平台10.0发布：框架、算法全面升级 单Orin芯片撑起L4自动驾驶

Statter Network（STT）：市场更欢迎全流通和经济模型公平的项目

百度Apollo开放平台10.0发布：框架、算法全面升级单Orin芯片撑起L4自动驾驶