字节复旦团队提出meta prompts 扩散模型图像理解力刷新SOTA

站长之家（ChinaZ.com）1月16日消息:过去一年扩散模型风头正劲，彻底改变了文生图领域!那么，扩散模型能否处理视觉感知任务?字节跳动和复旦大学技术团队在最新研究中提出了一个简单有效的方案。扩散模型在生成高清晰度图像方面显示出了卓越的能力，这一成就得益于其在大规模图像-文本对上的预训练。团队提出了一种利用扩散模型处理视觉感知任务的方案，通过引入可学习的元提示到预训练的扩散模型中，以提取适合特定感知任务的特征。

项目地址:https://github.com/fudan-zvg/meta-prompts

视觉感知任务的多样性超出了文本驱动方法的范畴，因此技术团队提出了一种内部的可学习元提示，称为meta prompts，这些meta prompts被集成到扩散模型中，以适应感知任务。Meta prompts可以根据目标任务和数据集进行端到端的训练，从而为去噪UNet建立特别定制的适应条件。这些meta prompts包含丰富的、适应于特定任务的语义信息，有效展示了对类别的识别能力、对深度的感知能力以及关键点的感知。

扩散模型通过其固有的设计，在去噪UNet中生成多尺度特征，但视觉感知任务通常需要理解既包括低级细节的又包括高级语义解释的内容。为了解决这一问题，技术团队引入了meta prompts作为特征重组的过滤器，将UNet的多尺度特征与meta prompts的任务适应性结合起来，并将经过meta prompts过滤的特征输入到特定任务的解码器中，从而提高模型在视觉识别任务中的性能。

技术团队还为视觉感知任务设计了一个简单的recurrent refinement过程，通过将UNet的输出特征循环输入到UNet中，并引入可学习的独特的timestep embeddings，以调制UNet的参数，从而优化特征提取过程，增强模型在视觉感知任务中的性能。实验结果显示，该方法在多个感知任务数据集上都取得了最优。

该研究提出的方法和技术有广泛的应用前景，可以在自动驾驶、医学影像分析、机器人视觉系统等领域中提升视觉感知任务的性能。此外，该方法还可以在艺术创作、虚拟现实、增强现实等领域中用于提高图像和视频的质量和互动性。随着技术的进步，这些方法可能会进一步完善。

公链平台开发新时代：Statter（STT）运用AI技术实现公链发行智能化

2025-01-202.1万阅读

首页

IT业界

热点视频

站长资讯

好物榜

更多分类

更多主题

字节复旦团队提出meta prompts 扩散模型图像理解力刷新SOTA

推荐关键词

24小时热搜

大家正在看

月之暗面推出全新SOTA模型k1.5：可同时处理不同模态信息

王化回应小米SU7召回：不必惊慌收到OTA提醒后升级即可

极光GPTBots与REDtone Digital Berhad强强联手共谱AI新篇章

比亚迪腾势N7迎来OTA升级：新增城市领航与车道辅助功能

OTA 7.0全量推送！理想汽车成中国首家推送全场景端到端的车企

小米回应召回3.1万辆SU7标准版电动汽车：可自行OTA

公链平台开发新时代：Statter（STT）运用AI技术实现公链发行智能化

新玩家！Nothing即将进入中国市场

准时发布有望：《GTA6》被曝已能从头玩到尾

CapCut随TikTok停止服务：Meta火速推新应用抢市场！

极光EngageLab携手StardustTV，助力短剧全球化发展

开放、兼容的数据建设与治理平台——瓴羊Dataphin“进化论”

罗永浩重返科技行业：AI智能助理J1 Assistant上线

Nothing新机预热：三摄模块布局正式揭晓

小红书APP新英文名rednote上线

Instagram宣布推出CapCut 克隆版创意视频编辑应用Edits

朱海舟体验罗永浩旗下AI助理J1 Assistant：原汁原味的锤科风格

iOS 18.3 Beta 3上线：苹果禁用通知摘要功能

细腻影像精细制作，《春色寄情人》中的索尼CinealtaV 2

行业首家！数势科技SwfitAgent全面接入DeepSeek-R1

首页

IT业界

热点视频

站长资讯

好物榜

更多分类

更多主题

字节复旦团队提出meta prompts 扩散模型图像理解力刷新SOTA

推荐关键词

24小时热搜

大家正在看

月之暗面推出全新SOTA模型k1.5：可同时处理不同模态信息

王化回应小米SU7召回：不必惊慌 收到OTA提醒后升级即可

极光GPTBots与REDtone Digital Berhad强强联手 共谱AI新篇章

比亚迪腾势N7迎来OTA升级：新增城市领航与车道辅助功能

OTA 7.0全量推送！理想汽车成中国首家推送全场景端到端的车企

小米回应召回3.1万辆SU7标准版电动汽车：可自行OTA

公链平台开发新时代：Statter（STT）运用AI技术实现公链发行智能化

新玩家！Nothing即将进入中国市场

准时发布有望：《GTA6》被曝已能从头玩到尾

CapCut随TikTok停止服务：Meta火速推新应用抢市场！

极光EngageLab携手StardustTV，助力短剧全球化发展

开放、兼容的数据建设与治理平台——瓴羊Dataphin“进化论”

罗永浩重返科技行业：AI智能助理J1 Assistant上线

Nothing新机预热：三摄模块布局正式揭晓

小红书APP新英文名rednote上线

Instagram宣布推出CapCut 克隆版创意视频编辑应用Edits

朱海舟体验罗永浩旗下AI助理J1 Assistant：原汁原味的锤科风格

iOS 18.3 Beta 3上线：苹果禁用通知摘要功能

细腻影像精细制作，《春色寄情人》中的索尼CinealtaV 2

行业首家！数势科技SwfitAgent全面接入DeepSeek-R1

王化回应小米SU7召回：不必惊慌收到OTA提醒后升级即可

极光GPTBots与REDtone Digital Berhad强强联手共谱AI新篇章