站长之家 - 业界 2024-03-13 14:16

MDTv2开源，Sora 核心组件 DiT 训练提速 10 倍

**划重点:**
1. 🌟 Masked Diffusion Transformer V2MDTv2（）在ImageNet benchmark上刷新SoTA，FID score达到1.58。
2. 🚀 颜水成/程明明研究团队通过引入Masked Diffusion Transformer有效提升了DiT的训练速度，并解决了扩散模型在学习语义关系方面的难题。
3. 📄 论文和代码已开源，详细信息可查阅[GitHub地址]（https://github.com/sail-sg/MDT）。

站长之家（ChinaZ.com）3月13日消息:由颜水成和程明明领衔的研究团队在Sora核心技术上进行了重要的升级，推出了Masked Diffusion Transformer V2。该模型在ImageNet benchmark上取得了惊人的成绩，FID score达到1.58，刷新了State-of-the-Art（SoTA）。

作为Sora的核心技术之一，Diffusion Transformer（DiT）在图像生成领域取得了显著的成功，但其训练成本随着模型规模的增大而飙升。研究者发现，扩散模型难以高效地学习图像中物体各部分之间的语义关系，导致训练过程低收敛效率。为了解决这一问题，颜水成和程明明研究团队提出了Masked Diffusion Transformer(MDT)，通过引入mask modeling表征学习策略，显著提升了DiT的训练效率。

MDT采用了针对Diffusion Transformer设计的mask modeling表征学习策略，增强了模型对上下文语义信息的学习能力，并加强了图像中物体之间语义信息的关联学习。通过在扩散训练过程中引入类似于MAE的mask modeling表征学习方案，MDT能够重建不完整输入图像的完整信息，提升图像生成的质量和学习速度。

具体而言，MDT通过VAE encoder将图片映射到latent空间，并在latent空间中进行处理以节省计算成本。在训练过程中，MDT首先mask掉部分加噪声后的图像token，并将剩余的token送入Asymmetric Diffusion Transformer来预测去噪声后的全部图像token。Asymmetric Diffusion Transformer架构包含encoder、side-interpolater和decoder，在训练和推理阶段分别处理未被mask的token和所有token，确保了模型的一致性。

最新版本的MDT，即MDTv2，通过更为高效的宏观网络结构进一步优化了diffusion和mask modeling的学习过程，实现了训练速度的显著提升。在ImageNet256基准下，MDTv2相较于DiT，不仅在训练速度上提升了10倍以上，而且在生成质量上取得了更高的FID分数。MDTv2-S/2在400k步骤训练下，FID指标为39.50，明显领先于DiT-S/2的68.40。

总体而言，MDT的创新设计在扩散模型训练中引入了有效的语义信息学习，提高了图像生成的质量和训练速度。研究者认为，通过视觉表征学习增强对物理世界的语义理解，有望提升生成模型对物理世界的模拟效果。这一工作符合Sora的期望，通过生成模型构建物理世界模拟器的理念，为未来的表征学习和生成学习研究提供了有力的启示。

项目入口:

24小时热搜

热
4.53万次阅读
1 沙特申博宣传片真是中国拍的网友：这风格意境是中国的手笔
70991次阅读
2 南方人东北购物被店主语气“凶哭”：文化差异导致误解
58002次阅读
3 女子下班回家发现家门口被贴U盘：新型诈骗手段？
39073次阅读
4 爸爸送娃撂下就走结果学校没开门：交警协助联系安全返家
37434次阅读
热
3.23万次阅读
5 宗庆后在黄金地段为员工建廉租房：从不裁45岁以上员工我算有钱
30095次阅读
荐 2020年高通骁龙CPU排名高通骁龙888排名领先
35420次阅读

查看更多内容

首页

IT业界

热点视频

站长资讯

好物榜

更多分类

更多主题

MDTv2开源，Sora 核心组件 DiT 训练提速 10 倍

推荐关键词

24小时热搜

大家正在看

LibTV 上线 HappyHorse 1.0：携手顶级模型打造一站式 AI 视频创作平台

小米宣布MiMo-V2.5系列正式开源

被海信这支TVC刷屏！海信以百吋大屏，致敬“人生大事”

腾讯云TVP走进银河通用×NVIDIA×福田戴姆勒，解码AI驱动产业硬核突围之路

自助KTV3.0时代，巨嗨行业标准发布会：让娱乐真正拥有生命

AI日报：字节跳动发布Seed3D2.0；小米 MiMo-V2.5公测；阿里Qwen3.6-27B正式开源

小米首次！Xiaomi MiMo-V2.5-Pro登顶全球开源大模型第一

小米MiMo-V2.5语音模型正式发布：一句话生成声音、克隆真人音色

灵瑞集首发瑞兽AI灵宠：以IP重构AI陪伴新范式

美团 AI ，“药”不能停

当 PostgreSQL 遇见 AI，数据库的 AI 进化论

腾讯AI还有一张暗牌

腾讯AI开始打明牌

估值70亿的工业AI独角兽，黑湖科技正在造工厂的AI大脑”

焕星公开NEX-AI体系，智能家居进入空间级AI时代

企业如何搭建AI员工？服务准确率超90%的AI客服如何设计？尘锋AI员工重塑智能客服咨询新体验！

AI转折中的红果

AI时代，谁在定义新的“劳动”？

AI手机该进入新阶段了

AI眼镜，阿里求稳