Design2Code：提供设计图，让多模态LLM自动生成前端代码

划重点:
⭐️ 生成 AI 在近年来取得了快速进展，具有前所未有的多模态理解和代码生成能力。
⭐️ 研究对可视化设计转换为代码实现的任务进行了系统研究，提出了一套自动评估指标。
⭐️ GPT-4V 在任务中表现出色，生成的网页在视觉外观和内容方面有望取代原始参考网页。

站长之家（ChinaZ.com）3月7日消息:近年来，生成 AI 在多模态理解和代码生成方面取得了显著进展，为前端开发带来了全新的范式。研究人员开展了对视觉设计转换为代码实现任务（称为 Design2Code）的系统研究。

Design2Code是一个微软的开源项目，目的是实现提供设计图，转换为前端代码，适用于前端开发者和设计师。

研究人员手动筛选了484个真实网页作为测试用例，并开发了一套自动评估指标，以评估当前多模态 LLMs 能够多大程度上生成直接渲染为给定参考网页的代码实现，以屏幕截图作为输入。

研究人员开发了一套多模态提示方法，并展示了它们在 GPT-4V 和 Gemini Vision Pro 上的有效性。他们还对开源的 Design2Code-18B 模型进行了微调，成功达到了 Gemini Pro Vision 的性能水平。

测试集示例

基准测试中的一些示例（用于评估目的;下面两行）与 Huggingface 创建的合成数据(用于训练目的;第一行)进行比较。基准测试包含具有不同复杂程度的各种现实世界网页。

人类评估和自动指标显示，GPT-4V 在这一任务中表现出色，标注者认为 GPT-4V 生成的网页在视觉外观和内容方面有望在49% 的情况下取代原始参考网页。令人惊讶的是，在64% 的情况下，标注者认为 GPT-4V 生成的网页甚至比原始参考网页更好。

基准性能:自动指标

对于自动评估，考虑高级视觉相似性（CLIP）和低级元素匹配(块匹配、文本、位置、颜色)。

模型对比

一些案例研究示例来比较不同的提示方法和不同的模型。

详细的细分指标表明，开源模型在从输入网页中召回视觉元素和生成正确布局设计方面大多落后，而在文本内容和着色方面则可以通过适当的微调得到显著改进。

项目入口：https://top.aibase.com/tool/design2code

Claude 3.5两小时暴虐50多名专家，编程10倍速飙升！但8小时曝出惊人短板

2024-11-252.6万阅读

首页

IT业界

热点视频

站长资讯

好物榜

更多分类

更多主题

Design2Code：提供设计图，让多模态LLM自动生成前端代码

推荐关键词

24小时热搜

大家正在看

最强开源CodeLLM模型深夜来袭！320亿参数，Qwen2.5-Coder新模型超越GPT-4o

DECODE Global科汇交易员：聚焦交易平台+策略+学习机会实现稳健收益

GitCode光引计划有奖征文大赛：汇聚开发者智慧，共筑开源未来

AI日报：快手推“可灵AI”独立APP；百度将推AI智能眼镜；智谱AI开源CogVideoX v1.5并上线“新清影”；Krea AI上线Lora训练功能

AI日报：Claude新增PDF文件处理功能；Runway推出高级摄像机控制；支持视频转视频的开源神器ComfyUI-MochiEdit

AI日报：xAI面向开发者推出API；天工AI发布AI高级搜索功能；Claude 3.5 Haiku上线

Claude化身服务器联通一切！AI写好代码自己发Github，人类程序员只配动嘴了

AI日报：百度世界2024大会发布文心iRAG和无代码“秒哒”；阿里开源Qwen2.5-Coder全系列；谷歌开源诺奖化学模型AlphaFold3

AI卷翻科研！DeepMind 36页报告：全球实验室被「AI科学家」指数级接管

INDEMIND：拿捏松弛感，先从“躺平”开始

云天励飞DeepEdge10系列芯片批量出货边缘AI算力再升级

AI日报：字节推图像编辑模型SeedEdit；Suno发布V4音乐生成模型；谷歌最新AI视频制作神器Vids

Steam正式推出游戏录制功能：全面支持Steam Deck

AI日报：媲美o1！DeepSeek推理模型R1-Lite-Preview；可灵AI用户超500万；AI版《黑客帝国》The Matrix问世

Apple Silicon 才是苹果在AI上的“一盘大棋”

大模型玩你画我猜：Claude6局3胜，GPT-4o表现迷惑

Claude 3.5两小时暴虐50多名专家，编程10倍速飙升！但8小时曝出惊人短板

特斯拉Model Y限时交付：尾款立减1万售价23.99万起

MUNIK荣膺DEKRA德凯杰出合作伙伴优秀贡献奖

17岁高中生写了个神级Prompt，直接把Claude强化成了满血o1。

首页

IT业界

热点视频

站长资讯

好物榜

更多分类

更多主题

Design2Code：提供设计图，让多模态LLM自动生成前端代码

推荐关键词

24小时热搜

大家正在看

最强开源CodeLLM模型深夜来袭！320亿参数，Qwen2.5-Coder新模型超越GPT-4o

DECODE Global科汇交易员：聚焦交易平台+策略+学习机会 实现稳健收益

GitCode光引计划有奖征文大赛：汇聚开发者智慧，共筑开源未来

AI日报：快手推“可灵AI”独立APP；百度将推AI智能眼镜；智谱AI开源CogVideoX v1.5并上线“新清影”；Krea AI上线Lora训练功能

AI日报：Claude新增PDF文件处理功能；Runway推出高级摄像机控制；支持视频转视频的开源神器ComfyUI-MochiEdit

AI日报：xAI面向开发者推出API；天工AI发布AI高级搜索功能；Claude 3.5 Haiku上线

Claude化身服务器联通一切！AI写好代码自己发Github，人类程序员只配动嘴了

AI日报：百度世界2024大会发布文心iRAG和无代码“秒哒”；阿里开源Qwen2.5-Coder全系列；谷歌开源诺奖化学模型AlphaFold3

AI卷翻科研！DeepMind 36页报告：全球实验室被「AI科学家」指数级接管

INDEMIND：拿捏松弛感，先从“躺平”开始

云天励飞DeepEdge10系列芯片批量出货 边缘AI算力再升级

AI日报：字节推图像编辑模型SeedEdit；Suno发布V4音乐生成模型；谷歌最新AI视频制作神器Vids

Steam正式推出游戏录制功能：全面支持Steam Deck

AI日报：媲美o1！DeepSeek推理模型R1-Lite-Preview；可灵AI用户超500万；AI版《黑客帝国》The Matrix问世

Apple Silicon 才是苹果在AI上的“一盘大棋”

大模型玩你画我猜：Claude6局3胜，GPT-4o表现迷惑

Claude 3.5两小时暴虐50多名专家，编程10倍速飙升！但8小时曝出惊人短板

特斯拉Model Y限时交付：尾款立减1万 售价23.99万起

MUNIK荣膺DEKRA德凯杰出合作伙伴优秀贡献奖

17岁高中生写了个神级Prompt，直接把Claude强化成了满血o1。

DECODE Global科汇交易员：聚焦交易平台+策略+学习机会实现稳健收益

云天励飞DeepEdge10系列芯片批量出货边缘AI算力再升级

特斯拉Model Y限时交付：尾款立减1万售价23.99万起