苹果AI/ML团队开发多模态大模型Ferret 成功突破谷歌人机验证码难题

要点:
1. 苹果AI/ML团队与哥伦比亚大学研究团队合作开发的多模态大模型“雪貂”（Ferret）能够在图像中准确找到交通信号灯，比GPT-4V表现更出色，提高了大模型在“看说答”任务中的精确度。
2. Ferret的关键创新在于将引用（referring）和定位(grounding)两方面的空间理解能力紧密结合，使模型能够同时理解给定区域的语义和找到对应目标。
3. Ferret采用混合区域表示方法，结合了离散坐标和连续特征，可以接受多样化的区域输入，如点、边界框和自由形状，并生成每个定位对象的坐标，这一方法在多任务评估中表现出色。

站长之家（ChinaZ.com）10月12日消息:苹果AI/ML团队与哥伦比亚大学合作研发的多模态大模型“雪貂”（Ferret）已经成功突破了谷歌人机验证码的难题，能够轻松识别图像中的交通信号灯并准确圈出其位置，其性能直逼GPT-4V。

Ferret的关键在于改进了大模型在“看说答”任务中的精确度，这得益于其出色的图文关联能力。

项目地址:https://github.com/apple/ml-ferret

论文地址:https://arxiv.org/pdf/2310.07704.pdf

Ferret的核心创新在于将引用和定位的两方面空间理解能力更紧密地结合在一起。引用指模型能够准确理解给定区域的语义，而定位则要求模型在图像中找到对应目标。

传统的多模态大模型通常只能单独使用引用和定位，但Ferret提出了一种新型的混合区域表示方法，使模型能够同时理解语义并找到目标。

这一方法使用混合区域表示，结合了离散坐标和连续特征。模型可以接受多样化的区域输入，包括点、边界框和自由形状，并能生成每个定位对象的坐标。

这一独特的方法使Ferret在多任务评估中表现出色，包括图像局部区域的引用/定位、语义、知识和推理能力。特别是在需要指代和视觉grounding的新任务上，Ferret表现卓越，提高了描述图像细节的准确性，减少了模型的幻觉。

最令人骄傲的是，Ferret是由一支全华人团队开发的，包括苹果AI/ML团队和哥伦比亚大学的研究团队。这一成就突显了中国在多模态大模型领域的卓越研究实力。通过这一研究，Ferret为解决图像理解和多模态任务提供了新的方向，有望在人机交互、智能搜索等领域取得显著的突破。

中聚AI女娲大模型：专注企业服务的智能AI，让企业难题一点就通！

2024-11-122.8万阅读

首页

IT业界

热点视频

站长资讯

好物榜

更多分类

更多主题

苹果AI/ML团队开发多模态大模型Ferret 成功突破谷歌人机验证码难题

推荐关键词

24小时热搜

大家正在看

50多款AI眼镜来了，大模型找到了应用救星？

AI日报：阶跃星辰内测视频大模型Step-Video；即梦AI图片2.1模型支持生成文字；腾讯发布混元视频生成大模型

大模型拿单江湖

李彦宏最新发声：大模型基本消除幻觉 AI变得可用可信赖！

中聚AI女娲大模型：专注企业服务的智能AI，让企业难题一点就通！

世界AI大会召开马上消金展示金融大模型安全实践成果丨马上消金

思必驰智能语音携手茅台，打造“国酒级”AI大模型智能会议方案

业界首次！中国联通AI大模型存算分离技术新突破

大模型上了火山方舟：数据唯你可见，唯你所用，唯你所有

端到端大模型到底是个啥小米官方详解

699元努比亚Watch GT发布：接入混元AI大模型

国产4o大模型，秒懂国风李子柒

努比亚Z70 Ultra首发星云AIOS：基于星辰AI大模型打造

大模型混战这一年：进化之赛、效率之争、落地之战

曝苹果跟百度合作：iPhone国行版加入百度AI大模型

大模型创业“生死局”：融资困难、造血乏力、卖身离场

刚刚，沈向洋官宣通用视觉大模型！无需提示，就能识别万物

大模型公司们创业未半，技术主心骨们却先弃船回大厂了？

OpenAI发布强化微调API，能深度定制超复杂大模型了

华为盘古汽车大模型夺得第一 300+家车企都选它

首页

IT业界

热点视频

站长资讯

好物榜

更多分类

更多主题

苹果AI/ML团队开发多模态大模型Ferret 成功突破谷歌人机验证码难题

推荐关键词

24小时热搜

大家正在看

50多款AI眼镜来了，大模型找到了应用救星？

AI日报：阶跃星辰内测视频大模型Step-Video；即梦AI图片2.1模型支持生成文字；腾讯发布混元视频生成大模型

大模型拿单江湖

李彦宏最新发声：大模型基本消除幻觉 AI变得可用可信赖！

中聚AI女娲大模型：专注企业服务的智能AI，让企业难题一点就通！

世界AI大会召开 马上消金展示金融大模型安全实践成果丨马上消金

思必驰智能语音携手茅台，打造“国酒级”AI大模型智能会议方案

业界首次！中国联通AI大模型存算分离技术新突破

大模型上了火山方舟：数据唯你可见，唯你所用，唯你所有

端到端大模型到底是个啥 小米官方详解

699元 努比亚Watch GT发布：接入混元AI大模型

国产4o大模型，秒懂国风李子柒

努比亚Z70 Ultra首发星云AIOS：基于星辰AI大模型打造

大模型混战这一年： 进化之赛、效率之争、落地之战

曝苹果跟百度合作：iPhone国行版加入百度AI大模型

大模型创业“生死局”：融资困难、造血乏力、卖身离场

刚刚，沈向洋官宣通用视觉大模型！无需提示，就能识别万物

大模型公司们创业未半，技术主心骨们却先弃船回大厂了？

OpenAI发布强化微调API，能深度定制超复杂大模型了

华为盘古汽车大模型夺得第一 300+家车企都选它

世界AI大会召开马上消金展示金融大模型安全实践成果丨马上消金

端到端大模型到底是个啥小米官方详解

699元努比亚Watch GT发布：接入混元AI大模型

大模型混战这一年：进化之赛、效率之争、落地之战