HuggingFace推出的开放合成数据集Cosmopedia 250亿个tokens

划重点:
- 🌍 Cosmopedia v0.1是由 Mixtral7b 生成的最大开放合成数据集，包含超过3000万个样本，总共约250亿个tokens。
- 💻 数据集汇编了来自网页数据集（如 RefinedWeb 和 RedPajama）的信息，涵盖教科书、博客文章、故事和 WikiHow 文章等各种内容类型。
- 📚 这一初始版本的 Cosmopedia 为合成数据领域的研究奠定了基础，展示了其在各种主题上的潜在应用。

站长之家（ChinaZ.com）2月21日消息:HuggingFace 推出了 Cosmopedia v0.1，这是最大的开放合成数据集，由 Mixtral7b 生成，包含超过3000万个样本，总共约250亿个标记tokens。

数据集旨在通过映射来自网页数据集如 RefinedWeb 和 RedPajama 的信息来汇编全球知识，包括教科书、博客文章、故事和 WikiHow 文章等各种内容类型。该数据集的结构分为八个部分，每个部分都源自不同的种子样本，其中包括 web_samples_v1和 web_samples_v2，占据数据集约75% 的比例，这些样本类似于 RefinedWeb 中的内部网页数据集。

Stanford 分区利用从 stanford.edu 网站上爬取的课程大纲，而故事分区则包含来自 UltraChat 和 OpenHermes2.5的生成故事。此外，WikiHow、OpenStax、KhanAcademy 和 automathtext 分区涉及与其各自来源相关的提示。

为了方便用户访问数据集，用户可以使用提供的代码段加载特定分区。另外，对于寻求缩减数据集的用户，还提供了一个更小的子集 Cosmopedia-100k。此外，还对 Cosmopedia 进行了训练，得到了一个更大的模型 Cosmo-1B，展示了其可扩展性和多功能性。

数据集的创建过程包括为 web 样本使用主题聚类方法、迭代地改进提示以及解决污染问题。其目标是通过量身定制提示风格和受众，最大程度地提高多样性，从而显著减少重复内容。

数据集入口:https://huggingface.co/datasets/HuggingFaceTB/cosmopedia

黄仁勋CES 2025最新演讲（全）：RTX 50显卡、单手可握的超级AI PC亮相

2025-01-072.5万阅读

首页

IT业界

热点视频

站长资讯

好物榜

更多分类

更多主题

HuggingFace推出的开放合成数据集Cosmopedia 250亿个tokens

推荐关键词

24小时热搜

大家正在看

从Character.AI Top 50角色，看千万用户的情感幻想与投射

Check Point：Banshee Stealer 将目标瞄准 macOS 用户

直接与iPad Pro竞争！微软正开发小尺寸Surface Pro：搭载骁龙X

端侧生成式AI赋能游戏开发：联发科技携手Cocos 引领行业变革

AI日报：零一万物否认被阿里收购；ChatGPT Pro订阅仍亏钱；英伟达首个世界基础模型Cosmos

AI霸屏的第二年，硅谷大佬们都Pick哪些AI产品？

中国AI硬件，正在占领CES

陈昊芝的技术之路：从Cocos引擎到全球游戏市场的领跑者

Checkout.com 实现45%的增长，为重返盈利奠定基础

Instagram宣布推出CapCut 克隆版创意视频编辑应用Edits

AI眼镜的火势，蔓延到CES了

ChatGPT卷入爆炸案刷屏，AI安全正在成为最贵的学费

Check Point：2025 - AI 技术和网络安全的关键一年

苹果预计上半年推出全新Mac Studio 搭载M4 Ultra芯片

史无前例！美国摇滚乐队OneRepublic登央视蛇年春晚演唱《Counting Stars》

英特尔：DeepSeek能够在英特尔产品上运行更可在AI PC上离线用

AI日报：可灵AI V1.6模型API开放；公众号上线 “AI配图” 功能;嫌犯用ChatGPT策划酒店爆炸案；阿里云上线AI程序员

黄仁勋CES 2025最新演讲（全）：RTX 50显卡、单手可握的超级AI PC亮相

谷歌前CEO：DeepSeek标志着全球AI竞赛"转折点"

OpenAI前CTO最隐秘AI创业：没名字没方向，挖走OpenAI高管，10位顶尖人才投奔

首页

IT业界

热点视频

站长资讯

好物榜

更多分类

更多主题

HuggingFace推出的开放合成数据集Cosmopedia 250亿个tokens

推荐关键词

24小时热搜

大家正在看

从Character.AI Top 50角色，看千万用户的情感幻想与投射

Check Point：Banshee Stealer 将目标瞄准 macOS 用户

直接与iPad Pro竞争！微软正开发小尺寸Surface Pro：搭载骁龙X

端侧生成式AI赋能游戏开发：联发科技携手Cocos 引领行业变革

AI日报：零一万物否认被阿里收购；ChatGPT Pro订阅仍亏钱；英伟达首个世界基础模型Cosmos

AI霸屏的第二年，硅谷大佬们都Pick哪些AI产品？

中国AI硬件，正在占领CES

陈昊芝的技术之路：从Cocos引擎到全球游戏市场的领跑者

Checkout.com 实现45%的增长，为重返盈利奠定基础

Instagram宣布推出CapCut 克隆版创意视频编辑应用Edits

AI眼镜的火势，蔓延到CES了

ChatGPT卷入爆炸案刷屏，AI安全正在成为最贵的学费

Check Point：2025 - AI 技术和网络安全的关键一年

苹果预计上半年推出全新Mac Studio 搭载M4 Ultra芯片

史无前例！美国摇滚乐队OneRepublic登央视蛇年春晚 演唱《Counting Stars》

英特尔：DeepSeek能够在英特尔产品上运行 更可在AI PC上离线用

AI日报：可灵AI V1.6模型API开放；公众号上线 “AI配图” 功能;嫌犯用ChatGPT策划酒店爆炸案；阿里云上线AI程序员

黄仁勋CES 2025最新演讲（全）：RTX 50显卡、单手可握的超级AI PC亮相

谷歌前CEO：DeepSeek标志着全球AI竞赛"转折点"

OpenAI前CTO最隐秘AI创业：没名字没方向，挖走OpenAI高管，10位顶尖人才投奔

史无前例！美国摇滚乐队OneRepublic登央视蛇年春晚演唱《Counting Stars》

英特尔：DeepSeek能够在英特尔产品上运行更可在AI PC上离线用