站长之家 - 业界 2024-06-07 14:23

NVIDIA 自动引导技术：改善扩散模型中的图像质量和变化

划重点:
- 💡 NVIDIA 提出的自动引导方法在扩散模型中使用较小的模型来引导生成过程，显著改善了图像生成的质量和多样性。
- 💡 通过自动引导方法，研究人员在 ImageNet-512和 ImageNet-64等基准测试中取得了新的记录成绩，实现了对图像生成质量的显著提升。
- 💡 这一创新方法在解决当前方法存在的局限性的同时，为生成高质量和多样化图像提供了更高效、更有效的解决方案。

站长之家（ChinaZ.com）6月7日消息:NVIDIA 近期提出了一种名为自动引导的新方法，旨在改善扩散模型中图像的质量和变化，而不影响其与给定条件（如类标签或文本提示）的一致性。当前的方法通常会以牺牲多样性为代价来提高图像质量，从而限制了它们在医学诊断和自动驾驶等各种现实场景中的适用性。然而，克服这一挑战可以提升人工智能系统在生成逼真且多样化图像方面的性能，推动当前人工智能能力的边界。

目前解决这一挑战的方法主要是使用无分类器引导（CFG），它使用无条件模型来引导有条件模型。虽然 CFG 改善了提示对齐和图像质量，但降低了图像变化。这种权衡发生在图像质量和变化的影响在本质上是纠缠在一起的，难以独立控制它们。此外，CFG 局限于有条件生成，并存在任务差异问题，导致图像构成的偏斜和过于简化的图像。这些限制影响了方法的性能，并限制了它在生成多样化和高质量图像方面的应用。

NVIDIA 的研究人员提出了一种名为自动引导的新方法，它涉及使用主模型的规模较小、训练时间较短的版本来引导生成过程，而不是使用无条件模型。这种方法通过将图像质量与变化解耦，从而更好地控制这些方面，同时保持与主模型相同的条件，确保生成图像的一致性。这种创新方法显著提高了图像生成的质量和变化，在 ImageNet-512和 ImageNet-64等基准测试中刷新了记录，可以应用于有条件和无条件模型。

该方法的核心是训练主模型的规模较小、训练时间较短的引导模型。论文详细介绍了去噪扩散过程，通过反转随机损坏过程生成合成图像。研究人员使用 Fréchet Inception Distance（FID）和 FDDINOv2等指标对模型进行评估，结果显示图像生成质量有了显著提高。例如，在 ImageNet-512中使用小模型(EDM2-S)，自动引导将 FID 从2.56提高到1.34，超越了现有方法。

广泛的定量结果证明了自动引导的有效性。该方法在公开可用的网络上实现了64×64和512×512图像分辨率的 FID 记录，表明图像质量有了显著提升，而没有牺牲多样性。评估包括比较不同方法的表格，展示了自动引导在 CFG 和其他基线方法上的优越性能。例如，该方法在 ImageNet 数据集上实现了87.5% 的准确率，超过了先前的最先进水平。

这种改进扩散模型中图像质量的新方法涉及使用模型的规模较小、训练时间较短的引导模型。所提出的自动引导方法克服了像 CFG 这样的现有方法的局限性。这种创新方法在基准测试中取得了最先进的成绩，显著推进了人工智能研究领域，为生成高质量和多样化图像提供了更高效、更有效的解决方案。

24小时热搜

热
4.53万次阅读
1 沙特申博宣传片真是中国拍的网友：这风格意境是中国的手笔
70991次阅读
2 南方人东北购物被店主语气“凶哭”：文化差异导致误解
58002次阅读
3 女子下班回家发现家门口被贴U盘：新型诈骗手段？
39073次阅读
4 爸爸送娃撂下就走结果学校没开门：交警协助联系安全返家
37434次阅读
热
3.23万次阅读
5 宗庆后在黄金地段为员工建廉租房：从不裁45岁以上员工我算有钱
30095次阅读
荐 2020年高通骁龙CPU排名高通骁龙888排名领先
35420次阅读

查看更多内容

首页

IT业界

热点视频

站长资讯

好物榜

更多分类

更多主题

NVIDIA 自动引导技术：改善扩散模型中的图像质量和变化

推荐关键词

24小时热搜

大家正在看

NVIDIA RTX 加速 PC 端 4K AI 视频生成，LTX-2 与 ComfyUI全面升级

用技术重构时光 | 从菁彩Vivid×《山河故人》看经典IP的“二次生长”密码

“菁彩Vivid 10城联动”启幕仪式即将举办，与《山河故人》一起见证中国电影视听新纪元

从CES荣誉奖到IFA最佳设计，Vidda C5无界诠释国产投影新高度

存储领域再迎突破！绿算发布FPGA NVMe RAID加速卡，重新定义高性能存储

AI日报：实时世界模型 PixVerse R1发布；Vidu发布AI一键生成MV功能；可灵AI ARR达2.4亿美元

京东京造第二批AI玩具全新上线：全年龄段覆盖搭载JoyInside大模型

AI日报：字节发布Seed Prover1.5；MiniMax M2.1开源；通义开源语音交互大模型Fun-Audio-Chat-8B

Vibe Coding创作者经济崛起，零克云以“一键部署”构建核心基座

预约量破2000万！《鹅鸭杀》手游开服引昵称争夺战：热门ID秒空

第五届AIGC开发者大会圆满落幕：Vibe Coding创作者经济正式来临

智能座舱新战事：大模型不是答案，只是起点

产业大模型，跑出一只“水下独角兽”

技嘉于 CES 2026 发布CQDIMM 技术实现 256GB 满载 DDR5-7200 极限性能

从“看家”到“懂家”：海雀大模型摄像头，重塑家庭主动智能新范式

腾讯回应用户被元宝AI辱骂：小概率模型异常输出

AI日报：蚂蚁百灵发布 Ling Studio；飞书联手安克创新推AI录音豆；ChatGPT 官宣引入广告

实时生成开放世界：新AI模型贴脸开大，游戏研发慌不慌？

CDIE2026“数创中国，智联世界”盛会官宣，以开放式无界峰会，链接全球数字化生态

花3000元让AI改口，大模型的尽头是广告？

首页

IT业界

热点视频

站长资讯

好物榜

更多分类

更多主题

NVIDIA 自动引导技术：改善扩散模型中的图像质量和变化

推荐关键词

24小时热搜

大家正在看

NVIDIA RTX 加速 PC 端 4K AI 视频生成，LTX-2 与 ComfyUI全面升级

用技术重构时光 | 从菁彩Vivid×《山河故人》看经典IP的“二次生长”密码

“菁彩Vivid 10城联动”启幕仪式即将举办，与《山河故人》一起见证中国电影视听新纪元

从CES荣誉奖到IFA最佳设计，Vidda C5无界诠释国产投影新高度

存储领域再迎突破！绿算发布FPGA NVMe RAID加速卡，重新定义高性能存储

AI日报：实时世界模型 PixVerse R1发布；Vidu发布AI一键生成MV功能；可灵AI ARR达2.4亿美元

京东京造第二批AI玩具全新上线：全年龄段覆盖 搭载JoyInside大模型

AI日报：字节发布Seed Prover1.5；MiniMax M2.1开源；通义开源语音交互大模型Fun-Audio-Chat-8B

Vibe Coding创作者经济崛起，零克云以“一键部署”构建核心基座

预约量破2000万！《鹅鸭杀》手游开服引昵称争夺战：热门ID秒空

第五届AIGC开发者大会圆满落幕：Vibe Coding创作者经济正式来临

智能座舱新战事：大模型不是答案，只是起点

产业大模型，跑出一只“水下独角兽”

技嘉于 CES 2026 发布CQDIMM 技术 实现 256GB 满载 DDR5-7200 极限性能

从“看家”到“懂家”：海雀大模型摄像头，重塑家庭主动智能新范式

腾讯回应用户被元宝AI辱骂：小概率模型异常输出

AI日报：蚂蚁百灵发布 Ling Studio；飞书联手安克创新推AI录音豆；ChatGPT 官宣引入广告

实时生成开放世界：新AI模型贴脸开大，游戏研发慌不慌？

CDIE2026“数创中国，智联世界”盛会官宣，以开放式无界峰会，链接全球数字化生态

花3000元让AI改口，大模型的尽头是广告？

京东京造第二批AI玩具全新上线：全年龄段覆盖搭载JoyInside大模型

技嘉于 CES 2026 发布CQDIMM 技术实现 256GB 满载 DDR5-7200 极限性能