**划重点:**
- 🌐 研究人员提出了一种名为StableRep的新技术,利用由AI生成的图像来训练高度详细的AI图像模型。
- 🚀 StableRep通过使用数百万标记的合成图像进行训练,采用“多正对比学习方法”来提高学习过程,将其应用于开源文本到图像模型Stable Diffusion。
- ⚙️ 尽管StableRep在ImageNet分类上取得了显著成就,但其生成图像的速度较慢,同时在文本提示和生成图像之间存在语义不匹配的问题。
站长之家(ChinaZ.com) 11月28日 消息:MIT和Google的研究人员近期开发了一项名为StableRep的新技术,旨在利用由AI生成的图像来训练更加详细和高效的AI图像模型。这项技术被应用于开源文本到图像模型Stable Diffusion,取得了一系列显著的成就。
StableRep采用了一种被称为“多正对比学习方法”的独特方式。在这种方法中,从相同文本提示生成的多个图像被视为彼此的正对比,从而增强了学习过程。例如,对于一个风景的文本提示,模型会将生成的几个风景变化与所有与该风景相关的描述进行交叉引用,以识别基于这些图像的细微差别,并将其应用于最终输出,从而创造出高度详细的图像。
研究人员表示,他们的方法在将多个图像视为同一底层事物的表达方面更为出色,而不仅仅是将它们视为像素的集合。实验证明,StableRep在ImageNet分类上取得了76.7%的线性准确度,使用Vision Transformer模型。此外,通过添加语言监督,研究人员发现,StableRep在2000万合成图像上的训练结果超越了使用5000万真实图像训练的CLIP模型。
然而,StableRep并非没有缺陷。其生成图像的速度较慢,同时在文本提示和生成图像之间存在语义不匹配的问题。此外,StableRep的底层模型Stable Diffusion需要在真实数据上进行初始训练,因此使用StableRep生成图像将需要更长时间且成本可能更高。
StableRep已经在GitHub上开源,并可用于商业用途。它采用Apache2.0许可证,用户可以使用并生成衍生作品,但需要在重新分发的作品或衍生作品中提供Apache许可证的副本,并包含对更改的通知。许可证还包括对贡献者不对使用许可作品引起的任何损害负责的责任限制。
MIT和Google的这一研究成果代表着AI图像生成领域的一次创新,尽管存在一些缺陷,但其对于高质量图像的生成提供了新的方法和思路。