商汤科技提出FouriScale 实现生成图像尺寸、分辨率自由

站长之家（ChinaZ.com）4月8日消息:近日，来自香港中文大学 - 商汤科技联合实验室等机构的研究者们提出了 FouriScale，旨在通过一种全新方法实现生成图像的尺寸和分辨率自由。

扩散模型因其卓越的性能，已逐渐超越GAN和自回归模型，成为生成式模型的主流选择。这些模型通常在特定分辨率下进行训练，以确保在现有硬件上实现高效处理和稳定的模型训练。然而，当这些预训练的扩散模型在超出训练分辨率时生成图像，常会出现模式重复和人工伪影问题。

项目地址:https://top.aibase.com/tool/fouriscale

论文地址:https://arxiv.org/abs/2403.12963

为了解决这一问题，研究者们深入研究了扩散模型中常用的UNet结构的卷积层，并从频域分析的角度提出了FouriScale。

该方法通过引入空洞卷积操作和低通滤波操作来替换预训练扩散模型中的原始卷积层，旨在实现不同分辨率下的结构和尺度一致性。配合“填充然后裁剪”策略，FouriScale能够灵活生成不同尺寸和长宽比的图像。此外，该方法无需任何离线预计算，具有良好的兼容性和可扩展性。

FouriScale的核心在于空洞卷积和低通滤波的结合。空洞卷积保证了跨分辨率下的结构一致性，而低通滤波则确保了尺度一致性，过滤掉高频分量，去除空间下采样后的频率混叠问题。

此外，FouriScale还能够适应于任意尺寸的图像生成，通过“填充然后裁剪”的方式，以及将FouriScale作为引导，保证了图像质量。

实验结果表明，FouriScale在利用预训练扩散模型生成高分辨率图像方面取得了显著提升。作者测试了三个文生图模型（包括SD1.5，SD2.1和 SDXL1.0），生成四种更高分辨率的图像。

在Laion-5B上随机采样的图文对测试结果显示，他们的方法在各个预训练模型，不同分辨率下都获得了最优的结果。定性试验结果也显示，该方法能够保证图像生成质量与一致的结构。

FouriScale的提出，为增强预训练扩散模型生成高分辨率图像的能力提供了新的思路。通过空洞卷积和低通滤波操作改善了不同分辨率下的结构和尺度一致性，解决了重复模式和结构失真等关键挑战。

采用“填充然后裁剪”策略并利用FouriScale作为指导，增强了文本到图像生成的灵活性和生成质量，同时适应了不同的长宽比生成。定量和定性的实验对比表明，FouriScale能够在不同预训练模型，不同分辨率下都能够保证更高的图像生成质量。

技嘉展示 AI TOP ATOM 四机串联集群，以科学运算验证地端 AI 扩展能力

2026-07-081.6万阅读

首页

IT业界

热点视频

站长资讯

好物榜

更多分类

更多主题

商汤科技提出FouriScale 实现生成图像尺寸、分辨率自由

推荐关键词

24小时热搜

大家正在看

UALink联盟Kurtis：开放Scale-Up互连加速构建可部署AI超节点

从UMX到Scale-Up光互连阿里云勾勒Agentic AI基础设施新趋势

百度智能云完成64B世界模型512卡训练验证支撑大模型高效Scale

山石网科惊艳亮相ISC.AI 2026，双A战略成果全景呈现

绿舟GOINGGREEN：详解FSC认证拿下CPF绿标的正确姿势！

即构ZIM社群功能：构建Discord式实时互动社区

从AI PC到AI主机，AI终端哪家强：联想集团端边云全栈领先

2026AI培训顾问公司推荐，地产行业AI培训，上市公司AI培训，服装行业AI培训，AI获客培训，零售行业AI培训顾问公司优选指南

2026AI培训机构推荐，服装行业AI培训，AI内容生产，上市公司AI培训，500强企业AI培训，AI获客机构优选指南!

2026AI培训实训营推荐，AI获客，零售行业AI培训，500强企业AI培训，实体企业AI转型实训营优选指南!

技嘉桌面AI超算竞赛即将开赛 11支队伍将基于AI TOP ATOM展开48小时本地AI实战

腾讯AI，翻身了吗？

全面回顾联想集团如何以混合式AI支撑AI世界杯

绚星完成AI原生研发体系重构，迈入AI Native企业新阶段

AI如何重塑2026世界杯：联想集团和FIFA的全球AI作战室

蚂蚁没有跨界，只是AI走到了这里

从线上AI互动到酒吧终端：趣拿物理AI的线下场景验证

为什么被称为“AI世界杯”？还原联想集团对AI和体育赛事的理解

技嘉展示 AI TOP ATOM 四机串联集群，以科学运算验证地端 AI 扩展能力

李未可×WorkBuddy发布首款AI记忆眼镜，让AI从听懂话走向懂工作

首页

IT业界

热点视频

站长资讯

好物榜

更多分类

更多主题

商汤科技提出FouriScale 实现生成图像尺寸、分辨率自由

推荐关键词

24小时热搜

大家正在看

UALink联盟Kurtis：开放Scale-Up互连加速构建可部署AI超节点

从UMX到Scale-Up光互连 阿里云勾勒Agentic AI基础设施新趋势

百度智能云完成64B世界模型512卡训练验证 支撑大模型高效Scale

山石网科惊艳亮相ISC.AI 2026，双A战略成果全景呈现

绿舟GOINGGREEN：详解FSC认证拿下CPF绿标的正确姿势！

即构ZIM社群功能：构建Discord式实时互动社区

从AI PC到AI主机，AI终端哪家强：联想集团端边云全栈领先

2026AI培训顾问公司推荐，地产行业AI培训，上市公司AI培训，服装行业AI培训，AI获客培训，零售行业AI培训顾问公司优选指南

2026AI培训机构推荐，服装行业AI培训，AI内容生产，上市公司AI培训，500强企业AI培训，AI获客机构优选指南!

2026AI培训实训营推荐，AI获客，零售行业AI培训，500强企业AI培训，实体企业AI转型实训营优选指南!

技嘉桌面AI超算竞赛即将开赛 11支队伍将基于AI TOP ATOM展开48小时本地AI实战

腾讯AI，翻身了吗？

全面回顾联想集团如何以混合式AI支撑AI世界杯

绚星完成AI原生研发体系重构，迈入AI Native企业新阶段

AI如何重塑2026世界杯：联想集团和FIFA的全球AI作战室

蚂蚁没有跨界，只是AI走到了这里

从线上AI互动到酒吧终端：趣拿物理AI的线下场景验证

为什么被称为“AI世界杯”？还原联想集团对AI和体育赛事的理解

技嘉展示 AI TOP ATOM 四机串联集群，以科学运算验证地端 AI 扩展能力

李未可×WorkBuddy发布首 款AI记忆眼镜，让AI从听懂话走向懂工作

从UMX到Scale-Up光互连阿里云勾勒Agentic AI基础设施新趋势

百度智能云完成64B世界模型512卡训练验证支撑大模型高效Scale

李未可×WorkBuddy发布首款AI记忆眼镜，让AI从听懂话走向懂工作