站长之家用户 - 传媒 2024-07-04 21:31

腾讯混元开源文生图专用打标模型，支持中英双语打标

7月4日，腾讯宣布混元文生图打标模型“混元Captioner”正式对外开源。该模型支持中英文双语，针对文生图场景进行专门优化，可帮助开发者快速制作高质量的文生图数据集。

相比起业界的开源打标模型，混元Captioner模型能更好的理解与表达中文语义，输出的图片描述更为结构化、完整和准确，并能准确识别出常见知名人物与地标。模型还支持开发者自行补充和导入个性化的背景知识。

面向文生图、支持中英文，提升数据质量

数据集就像AI训练的教材。训练数据集的质量，影响着模型生成内容的效果。因此，文生图开发者往往需要对原始图片进行清晰、全面的标注，制作高质量的数据集，才能训练出来一个语义理解准确、绘画技艺高超的文生图大模型。

借助打标模型，开发者可以快速生成高质量数据集。具体来说，文生图开发者将原始图片集导入混元Captioner，后者将生成高质量标注;也可以导入图片与原始描述，利用混元Captioner过滤其中的无关信息，并完善和优化图片描述，以提高数据质量。

目前，业界对于图片描述文本的生成，主要使用通用多模态Captioner模型，存在描述过于简单或繁琐（与画面描述的无关信息过多）、缺少背景知识导致无法识别知名人物和地标等问题，并且许多模型并非中文原生，中文描述不够准确。

混元Captioner对图片描述进行结构化与准确度提升

混元Captioner的背景知识更为完善

混元Captioner模型针对文生图场景专门进行优化:构建了结构化的图片描述体系;并在模型层面，通过注入人工标注、模型输出、公开数据等多种来源提升Caption描述的完整性;并注入知名文学作品形象、地标、食物、动物、中国元素与知识等大量背景知识，让模型输出的描述更为准确、完整。

混元Captioner模型构建了结构化的图片描述体系

众多开发者关注，成受欢迎国产DiT开源模型

在对外开源打标模型的同时，腾讯混元文生图大模型（混元DiT）宣布开源小显存版本，仅需6G显存即可运行，对使用个人电脑本地部署的开发者十分友好，该版本与LoRA、ControlNet等插件，都已适配至Diffusers库;并新增对Kohya图形化界面的支持，让开发者可以低门槛地训练个性化LoRA模型;同时，混元DiT模型升级至1.2版本，在图片质感与构图方面均有所提升。

作为头个中文原生DiT开源模型，混元DiT自全面开源以来，一直持续建设生态。6月，混元DiT发布的专属加速库，可将推理效率进一步提升，生图时间缩短75%;并进一步开源了推理代码;发布LoRA和ControlNet等插件。于此同时，模型易用性大幅提升，用户可以通过Hugging Face Diffusers快讯调用混元DiT模型及其插件，或基于Kohya和ComfyUI等图形化界面训练与使用混元DiT。

目前，在众多开发者的支持下，混元DiT发布不到2个月，Github Star数已经超过2.6k，成为受欢迎的国产DiT开源模型。

24小时热搜

热
4.53万次阅读
1 沙特申博宣传片真是中国拍的网友：这风格意境是中国的手笔
70991次阅读
2 南方人东北购物被店主语气“凶哭”：文化差异导致误解
58002次阅读
3 女子下班回家发现家门口被贴U盘：新型诈骗手段？
39073次阅读
4 爸爸送娃撂下就走结果学校没开门：交警协助联系安全返家
37434次阅读
热
3.23万次阅读
5 宗庆后在黄金地段为员工建廉租房：从不裁45岁以上员工我算有钱
30095次阅读
荐 2020年高通骁龙CPU排名高通骁龙888排名领先
35420次阅读

查看更多内容

首页

IT业界

热点视频

站长资讯

好物榜

更多分类

更多主题

腾讯混元开源文生图专用打标模型，支持中英双语打标

推荐关键词

24小时热搜

大家正在看

马斯克母亲小红书引热议美国网友：你咋在这

雨后生活低空之家平台正式上线

男子捡到“白酒” 喝完抢救21天医生：喝的是防冻液

俄罗斯模特在哈尔滨“美丽冻人”：零下20℃拍宣传大片

全球首发天玑9400+！vivo X200S详细配置出炉

激进架构，400万上下文，彻底开源：MiniMax-01有点“Transformer时刻”的味道了

画质奇迹！TCL凭一区顶多区的万象分区技术，破解画质难题

三星Neo QLED 8K产品获多项权威奖项，引领全球显示领域新变革

18元起！《黑神话》官方周边开卖：衣服、挂件等多品类覆盖

小米第一波国补开启区域公布：至高2000元

今日头条发布2024年度治理报告，一年累计处罚同质化发文超781万篇

抖音电商商品卡“免佣” 了！25 年重大利好政策来袭

黑神话悟空贺岁短片好多细节黑神话BlackMyth品牌正式推出

一汽大众揽巡充分考证达到了中国用户的喜好

周鸿祎参演AI短剧开拍纳米AI搜索节约大量拍摄成本

努比亚Flip 2小折叠进军日本：6.9英寸OLED屏+天玑7300X 国内上市指日可待

周边来了！《黑神话》IP唯一官方品牌发布：游戏科学100%自主出品

对标Siri和Alexa！OpenAI本周为ChatGPT推出测试版管理工具

美国网友涌入小红书交猫税：话题笔记已超3000篇

年销2亿后，价格“腰斩”，车厘子商家还赚钱吗？

首页

IT业界

热点视频

站长资讯

好物榜

更多分类

更多主题

腾讯混元开源文生图专用打标模型，支持中英双语打标

推荐关键词

24小时热搜

大家正在看

马斯克母亲小红书引热议 美国网友：你咋在这

雨后生活低空之家平台正式上线

男子捡到“白酒” 喝完抢救21天 医生：喝的是防冻液

俄罗斯模特在哈尔滨“美丽冻人”：零下20℃拍宣传大片

全球首发天玑9400+！vivo X200S详细配置出炉

激进架构，400万上下文，彻底开源：MiniMax-01有点“Transformer时刻”的味道了

画质奇迹！TCL凭一区顶多区的万象分区技术，破解画质难题

三星Neo QLED 8K产品获多项权威奖项，引领全球显示领域新变革

18元起！《黑神话》官方周边开卖：衣服、挂件等多品类覆盖

小米第一波国补开启区域公布：至高2000元

今日头条发布2024年度治理报告，一年累计处罚同质化发文超781万篇

抖音电商商品卡“免佣” 了！25 年重大利好政策来袭

黑神话悟空贺岁短片好多细节 黑神话BlackMyth品牌正式推出

一汽大众揽巡充分考证达到了中国用户的喜好

周鸿祎参演AI短剧开拍 纳米AI搜索节约大量拍摄成本

努比亚Flip 2小折叠进军日本：6.9英寸OLED屏+天玑7300X 国内上市指日可待

周边来了！《黑神话》IP唯一官方品牌发布：游戏科学100%自主出品

对标Siri和Alexa！OpenAI本周为ChatGPT推出测试版管理工具

美国网友涌入小红书交猫税：话题笔记已超3000篇

年销2亿后，价格“腰斩”，车厘子商家还赚钱吗？

马斯克母亲小红书引热议美国网友：你咋在这

男子捡到“白酒” 喝完抢救21天医生：喝的是防冻液

黑神话悟空贺岁短片好多细节黑神话BlackMyth品牌正式推出

周鸿祎参演AI短剧开拍纳米AI搜索节约大量拍摄成本