MIT研究：纯文本模型也能训练出视觉表征用代码就能作画

要点:
MIT的研究团队通过对语言模型的系统评估，展示了使用纯文本模型训练视觉概念表征的可能性，通过代码生成图像，实现视觉学习系统。
虽然语言模型无法直接处理像素形式的视觉信息，但通过对字符串关系的建模，研究人员成功训练出能够理解和生成复杂视觉概念的模型。
研究结果表明，语言模型在生成复杂场景方面表现出色，但在捕捉视觉细节如纹理、精确形状等方面仍有改进空间，通过文本纠错可进一步提升模型的视觉生成能力。

站长之家（ChinaZ.com）1月31日消息:最近，MIT计算机科学与人工智能实验室的研究人员进行了一项有趣的研究，通过评估语言模型的视觉能力，揭示了纯文本模型训练视觉概念表征的新可能性。

他们使用代码而非图像进行渲染和表示，成功地教会语言模型生成和理解复杂的视觉概念。虽然生成的图像可能不像自然图像，但通过模型的自我纠正，研究人员证明了对字符串和文本进行精确建模可以教会语言模型有关视觉世界的多种概念。

论文地址:https://arxiv.org/pdf/2401.01862.pdf

研究人员构建了三个不同复杂度的文本描述数据集，从简单的形状和组合到复杂的场景，评估了模型在生成、识别和修改图像渲染代码方面的能力。

实验结果显示，语言模型在生成由多个物体组成的复杂视觉场景方面表现出色，但在捕捉视觉细节方面有一些局限。通过文本纠错，研究人员成功地改善了模型的视觉生成能力，为使用纯文本模型训练视觉系统提供了新的思路。

研究中的一个关键发现是，语言模型在生成代码方面表现出相当高效的能力，但在识别以代码表示的视觉概念方面较为困难。与人类相反，模型在生成复杂场景方面表现出色，但在解释代码内容上存在难题。通过使用自身生成的自然语言反馈，研究人员成功地通过迭代过程改善了模型的视觉效果。

综合而言，这项研究拓展了我们对语言模型的理解，展示了它们不仅可以理解视觉概念，还能够通过文本生成和纠错进行视觉学习。这为未来发展更强大的纯文本模型提供了启示，有望推动语言模型在视觉领域的更广泛应用。

刚刚，沈向洋官宣通用视觉大模型！无需提示，就能识别万物

2024-11-232.5万阅读

首页

IT业界

热点视频

站长资讯

好物榜

更多分类

更多主题

MIT研究：纯文本模型也能训练出视觉表征用代码就能作画

推荐关键词

24小时热搜

大家正在看

大模型拿单江湖

AI日报：阶跃星辰内测视频大模型Step-Video；即梦AI图片2.1模型支持生成文字；腾讯发布混元视频生成大模型

AI大模型时代，人才的需求已经变了

Sora之后，视频生成模型的中国牌局

2024，大模型杀进“决赛圈”

当做应用成为共识，大模型公司拿出了更多弹药

能打的私域团队，都在遵从这个增长三角模型

50多款AI眼镜来了，大模型找到了应用救星？

国产4o大模型，秒懂国风李子柒

一手实测豆包新发布的视觉理解大模型，他们真的卷起飞了。

大模型混战这一年：进化之赛、效率之争、落地之战

大模型创业“生死局”：融资困难、造血乏力、卖身离场

英伟达展示AI模型Fugatto：可修改并生成新声音

刚刚，沈向洋官宣通用视觉大模型！无需提示，就能识别万物

成都汇阳投资关于Sora 正式上线，多模态模型的里程碑

OpenAI发布强化微调API，能深度定制超复杂大模型了

华为盘古汽车大模型夺得第一 300+家车企都选它

RockAI出席酷+科技峰会，揭示大模型群体智能新趋势

刚刚，OpenAI公开o1模型测试方法，人机协作时代！

AI日报：字节重磅推出豆包视觉理解模型；AI“魔改”宠物跳舞爆火；OpenAI开放满血o1模型API；即梦AI上线海报生成功能

首页

IT业界

热点视频

站长资讯

好物榜

更多分类

更多主题

MIT研究：纯文本模型也能训练出视觉表征 用代码就能作画

推荐关键词

24小时热搜

大家正在看

大模型拿单江湖

AI日报：阶跃星辰内测视频大模型Step-Video；即梦AI图片2.1模型支持生成文字；腾讯发布混元视频生成大模型

AI大模型时代，人才的需求已经变了

Sora之后，视频生成模型的中国牌局

2024，大模型杀进“决赛圈”

当做应用成为共识，大模型公司拿出了更多弹药

能打的私域团队，都在遵从这个增长三角模型

50多款AI眼镜来了，大模型找到了应用救星？

国产4o大模型，秒懂国风李子柒

一手实测豆包新发布的视觉理解大模型，他们真的卷起飞了。

大模型混战这一年： 进化之赛、效率之争、落地之战

大模型创业“生死局”：融资困难、造血乏力、卖身离场

英伟达展示AI模型Fugatto：可修改并生成新声音

刚刚，沈向洋官宣通用视觉大模型！无需提示，就能识别万物

成都汇阳投资关于Sora 正式上线，多模态模型的里程碑

OpenAI发布强化微调API，能深度定制超复杂大模型了

华为盘古汽车大模型夺得第一 300+家车企都选它

RockAI出席酷+科技峰会，揭示大模型群体智能新趋势

刚刚，OpenAI公开o1模型测试方法，人机协作时代！

AI日报：字节重磅推出豆包视觉理解模型；AI“魔改”宠物跳舞爆火；OpenAI开放满血o1模型API；即梦AI上线海报生成功能

MIT研究：纯文本模型也能训练出视觉表征用代码就能作画

大模型混战这一年：进化之赛、效率之争、落地之战