CommonCanvas：一种使用创意共享图片训练开放扩散模型的方法

核心要点:
研究团队提出了一种使用创意共享图片训练开放扩散模型的方法，以克服高质量数据和版权问题的挑战。
他们使用迁移学习技术创建了合成标题，与精选的创意共享图片匹配，用于训练生成模型，将文字转化为图像。
这一方法大大提高了生成模型的质量，创建了称为CommonCanvas的一组模型，可与SD2相媲美。

站长之家（ChinaZ.com）11月2日消息:近年来，人工智能在文本到图像生成领域取得了显著进展。将书面描述转化为视觉表现具有广泛的应用，从创作内容到帮助盲人和讲故事。然而，研究人员面临着两个重大障碍，即缺乏高质量数据和从互联网抓取的数据集涉及的版权问题。

为了克服这些问题，一支研究团队提出了一个创新的方法，他们创建了一个创意共享许可（CC）的图像数据集，用于训练开放扩散模型，这些模型可以胜过Stable Diffusion2(SD2)。

论文地址:https://arxiv.org/pdf/2310.16825.pdf

这个方法有两个主要挑战:首先，高分辨率的CC照片虽然是开放许可的，但它们经常缺乏文本描述，这对于文本到图像生成模型的训练至关重要。

其次，与像LAION这样的大型专有数据集相比，CC照片数量较少，尽管它们是重要的资源。这引发了是否有足够的数据可以有效训练高质量模型的问题。

为了解决这些问题，研究团队采用了迁移学习技术，使用预训练模型创建了出色的合成标题，并将其与精心选择的CC照片相匹配。这种方法利用了模型从照片或其他输入生成文本的能力，通过创建一个照片和虚构标题的数据集，用于训练生成模型，将文字转化为视觉内容。

此外，他们还制定了一种既节约计算资源又高效利用数据的训练方法，以解决第二个挑战。这意味着有足够的CC照片可供训练高质量模型。最终，研究团队培训了多个文本到图像生成模型，这些模型被称为CommonCanvas系列，并在生成质量上媲美SD2。

通过该方法，他们克服了数据集大小的限制和使用人工标题的问题，实现了高质量的图像生成。总之，他们的研究为创意共享图像的利用提供了新方法，为生成模型的进一步发展提供了有力支持。同时，他们还将训练好的CommonCanvas模型、CC照片、人工标题和CommonCatalog数据集免费提供在GitHub上，以鼓励更多的合作和研究。

Comfyui像素画风格插件——PixelArt Detector 可模拟不同时段光照变化

2024-04-012.3万阅读

首页

IT业界

热点视频

站长资讯

好物榜

更多分类

更多主题

CommonCanvas：一种使用创意共享图片训练开放扩散模型的方法

推荐关键词

24小时热搜

大家正在看

Cohere推出大模型Command R+ 优化高级检索增强生成功能

小鸟科技亮相北京Infocomm China 2024

开源模型打败GPT-4！LLM竞技场最新战报，Cohere Command R+上线

Ollama更新优化软件并支持Command R+等多个热门模型

Command R+官网体验入口企业级RAG优化模型工具使用方法教程指南

看到科技亮相北京InfoComm China 2024，展示智慧办公全场景解决方案

ComfyUI-SuperBeasts：适用ComfyUI滤镜可控制亮度、色彩等各种参数

Tara：一款可以将LLM接入Comfy UI的插件

AI漫画自动生成器Al Comic Factory 支持批量生成不同语言的漫画

MagicCompass LTD：探讨AI在金融领域的发展及机会

Comfyui像素画风格插件——PixelArt Detector 可模拟不同时段光照变化

赵明：荣耀正式在全球范围启用顶级域名honor.com

Magic Compass Ltd观察：国际上黄金市场的主要划分方式和类型

明星COS天花板！孙艺洲真的COS吕布了

Magic Compass Ltd：市场变幻莫测，透过美元黄金解读美联储降息

荣耀大事件尘埃落地！官网全新域名honor.com今日正式启用

用高端存储科技打破次元壁 Lexar雷克沙携手尼康闪耀COMICUP2024SP

OpenVoice V2版本发布能对声音风格进行精细控制

重磅发布：aiXcoder-7B正式开源

《被美女包围》浩浩妈演员COS美杜莎还是怀孕版

首页

IT业界

热点视频

站长资讯

好物榜

更多分类

更多主题

CommonCanvas：一种使用创意共享图片训练开放扩散模型的方法

推荐关键词

24小时热搜

大家正在看

Cohere推出大模型Command R+ 优化高级检索增强生成功能

小鸟科技亮相北京Infocomm China 2024

开源模型打败GPT-4！LLM竞技场最新战报，Cohere Command R+上线

Ollama更新 优化软件并支持Command R+等多个热门模型

Command R+官网体验入口 企业级RAG优化模型工具使用方法教程指南

看到科技亮相北京InfoComm China 2024，展示智慧办公全场景解决方案

ComfyUI-SuperBeasts：适用ComfyUI滤镜 可控制亮度、色彩等各种参数

Tara：一款可以将LLM接入Comfy UI的插件

AI漫画自动生成器Al Comic Factory 支持批量生成不同语言的漫画

MagicCompass LTD：探讨AI在金融领域的发展及机会

Comfyui像素画风格插件——PixelArt Detector 可模拟不同时段光照变化

赵明：荣耀正式在全球范围启用顶级域名honor.com

Magic Compass Ltd观察：国际上黄金市场的主要划分方式和类型

明星COS天花板！孙艺洲真的COS吕布了

Magic Compass Ltd：市场变幻莫测，透过美元黄金解读美联储降息

荣耀大事件尘埃落地！官网全新域名honor.com今日正式启用

用高端存储科技打破次元壁 Lexar雷克沙携手尼康闪耀COMICUP2024SP

OpenVoice V2版本发布 能对声音风格进行精细控制

重磅发布：aiXcoder-7B正式开源

《被美女包围》浩浩妈演员COS美杜莎 还是怀孕版

Ollama更新优化软件并支持Command R+等多个热门模型

Command R+官网体验入口企业级RAG优化模型工具使用方法教程指南

ComfyUI-SuperBeasts：适用ComfyUI滤镜可控制亮度、色彩等各种参数

OpenVoice V2版本发布能对声音风格进行精细控制

《被美女包围》浩浩妈演员COS美杜莎还是怀孕版