Stability AI发布SD3技术报告披露SD3更多细节

站长之家（ChinaZ.com）3月5日消息:Stability AI 最近发布了他们最强的图片生成模型 Stable Diffusion3（SD3）的技术报告，披露了 SD3的更多细节。据 Stability AI 所说，SD3在排版质量、美学质量和提示词理解上超过了目前所有的开源模型和商业模型，是目前最强的图片生成模型。

技术报告要点如下:

根据人类偏好评估，SD3在排版质量和对提示的理解程度上，均优于目前最先进的文本生成图像系统，例如 DALL·E3、Midjourney v6和 Ideogram v1。

报告提出了新的多模态扩散 Transformer （Multimodal Diffusion Transformer，简称 MMDiT）架构，其使用独立的权重集分别表示图像和语言。与 SD3的先前版本相比，该架构改善了系统对文本的理解能力和拼写能力。

SD38B 大小的模型可以在 GTX409024G 显存上运行。此外，SD3将发布多个参数规模不等的模型方便在消费级硬件上运行，参数规模从800M 到8B。

SD3架构以 Diffusion Transformer （简称"DiT"，参见 Peebles & Xie，2023）为基础。鉴于文本嵌入和图像嵌入在概念上存在较大差异，他们为这两种模态使用了独立的权重集。通过这种方法，信息得以在图像 Token 和文本 Token 之间流动，从而提高了模型生成结果的整体理解力和排版质量。

SD3采用了矫正流（Rectified Flow，简称 RF）的公式，在训练过程中，数据和噪声被连接在一条线性轨迹上。这导致了更直的推理路径，从而可以使用更少的步骤进行采样。

他们还进行了扩展矫正流 Transformer 模型的研究，使用重新加权的 RF 公式和 MMDiT 主干网络，训练了一系列模型，其规模从15个 Transformer 块（4.5亿参数）到38个块 (80亿参数) 不等。

SD3还引入了灵活的文本编码器，通过在推理阶段移除内存密集型的 T5文本编码器（参数量高达47亿），SD3的内存占用可以大幅降低，而性能损失却很小。

总的来说，Stability AI 的这一技术报告揭示了 SD3的强大功能和细节，显示出其在图片生成领域的领先地位。

详细内容点此查看：https://stability.ai/news/stable-diffusion-3-research-paper

Stability AI发布音频模型 Stable Audio2.0:支持生成多种类型音乐时长达3分钟

2024-04-042.3万阅读

首页

IT业界

热点视频

站长资讯

好物榜

更多分类

更多主题

Stability AI发布SD3技术报告披露SD3更多细节

推荐关键词

24小时热搜

大家正在看

突发！Stable Diffusion 3，可通过API使用啦

Stable Diffusion 3 API申请入口 AI文生图API官方免费申请地址

模型未发API先至！Stable Diffusion 3 API 发布性能比肩 Midjourney v6

Stability AI发布音频模型 Stable Audio2.0:支持生成多种类型音乐时长达3分钟

SD3将于4月中旬发布！预计会有6种规模的模型

旷视发布HiDiffusion，SD生成速度更快，图片质量更高

Mutable AI：自动将你的GitHub代码库转换维基文档

文本生成3分钟44.1 kHz 音乐，Stable Audio 2.0重磅发布！

Stability AI发布Stable LM2模型更新，参数增至120亿

AI日报：GPT-4-Turbo正式版自带读图能力；Gemini1.5Pro开放API；SD3将于4月中旬发布；抖音宫崎骏AI特效爆火

Diffusion-RWKV官网体验入口 AI生成高质量图像工具使用地址

Pika联创参与新研究：Diffusion能抢GPT的活了，成功挑战自回归文本范式

StableDesign：适用于室内装修设计的SD方案文字提示就可修改室内设计图

AI日报：比肩MJ6！SD3 API发布；Kimi升级！联网回复更快了；微软发布对口型软件VASA-1；刘强东数字人首播破纪录

AI日报：首个AI程序员Devin造假被抓；Sora平替?StreamingT2V试玩地址公布；Udio AI还可以创作喜剧、演讲；XAI发布Grok-1.5Vision多模态模型

StableDrag：简易点击编辑器可以轻松调整蒙娜丽莎脸部表情

Grok-1.5 Vision Preview官网体验入口 X.AI多模态AI模型详细介绍

Meta 推出 ViewDiff 模型：文本生成多视角 3D 图像

Spline发布3D生成工具AI 3D Generation 支持文/图生3D模型及混合编辑3D模型

据称Stability AI资金告急，无法支付租用的云GPU账单

首页

IT业界

热点视频

站长资讯

好物榜

更多分类

更多主题

Stability AI发布SD3技术报告 披露SD3更多细节

推荐关键词

24小时热搜

大家正在看

突发！Stable Diffusion 3，可通过API使用啦

Stable Diffusion 3 API申请入口 AI文生图API官方免费申请地址

模型未发API先至！Stable Diffusion 3 API 发布 性能比肩 Midjourney v6

Stability AI发布音频模型 Stable Audio2.0:支持生成多种类型音乐 时长达3分钟

SD3将于4月中旬发布！预计会有6种规模的模型

旷视发布HiDiffusion，SD生成速度更快，图片质量更高

Mutable AI：自动将你的GitHub代码库转换维基文档

文本生成3分钟44.1 kHz 音乐，Stable Audio 2.0重磅发布！

​Stability AI发布Stable LM2模型更新，参数增至120亿

AI日报：GPT-4-Turbo正式版自带读图能力；Gemini1.5Pro开放API；SD3将于4月中旬发布；抖音宫崎骏AI特效爆火

Diffusion-RWKV官网体验入口 AI生成高质量图像工具使用地址

Pika联创参与新研究：Diffusion能抢GPT的活了，成功挑战自回归文本范式

StableDesign：适用于室内装修设计的SD方案 文字提示就可修改室内设计图

AI日报：比肩MJ6！SD3 API发布；Kimi升级！联网回复更快了；微软发布对口型软件VASA-1；刘强东数字人首播破纪录

AI日报：首个AI程序员Devin造假被抓；​Sora平替?StreamingT2V试玩地址公布；Udio AI还可以创作喜剧、演讲；XAI发布Grok-1.5Vision多模态模型

StableDrag：简易点击编辑器可以轻松调整蒙娜丽莎脸部表情

Grok-1.5 Vision Preview官网体验入口 X.AI多模态AI模型详细介绍

Meta 推出 ViewDiff 模型：文本生成多视角 3D 图像

Spline发布3D生成工具AI 3D Generation 支持文/图生3D模型及混合编辑3D模型

据称Stability AI资金告急，无法支付租用的云GPU账单

Stability AI发布SD3技术报告披露SD3更多细节

模型未发API先至！Stable Diffusion 3 API 发布性能比肩 Midjourney v6

Stability AI发布音频模型 Stable Audio2.0:支持生成多种类型音乐时长达3分钟

Stability AI发布Stable LM2模型更新，参数增至120亿

StableDesign：适用于室内装修设计的SD方案文字提示就可修改室内设计图

AI日报：首个AI程序员Devin造假被抓；Sora平替?StreamingT2V试玩地址公布；Udio AI还可以创作喜剧、演讲；XAI发布Grok-1.5Vision多模态模型