反盗版组织下线AI训练数据集 “Books3” Meta大模型也曾使用

本文概要:
1. 反盗版组织成功要求在线盗版书籍资源库 The Eye 下线 AI 训练数据集 "Books3"。
2. "Books3" 数据集包含了37GB 的文本，用于训练人工智能模型，已被多家公司使用。
3. 反盗版组织表示 AI 对版权产生了新的挑战，计划继续打击其他存有该数据集的网站。

站长之家（ChinaZ.com）8月22日消息:近日，反盗版组织成功要求在线盗版书籍资源库 The Eye 下线 AI 训练数据集 "Books3" 的事件。"Books3" 数据集是一个大规模的盗版书籍资源，包含了37GB 的文本，用于训练人工智能模型。

Books3存储库包含196，640本书，全部采用 plain.txt 格式，旨在为新兴的 AI 项目提供与 ChatGPT 制造商 OpenAI 等项目竞争的优势。

丹麦的反盗版组织 Rights Alliance 向 The Eye 发送了 DMCA 通知书，要求其下线该数据集。该组织表示，Books3数据集包含其成员公司出版的约150本书。Rights Alliance 还联系了 AI 模型托管网站 Hugging Face（该网站托管了数据卡和 Books3下载链接）以及 EleutherAI。两个组织都将反盗版组织的目标指向了“The Eye”。

非营利研究组织 EleutherAI 最初发布 Books3作为 AI 训练集 The Pile 的一部分，The Pile 是一个800GB 的开源训练数据块，其中包含22个专门为训练语言模型而设计的其他数据集。

尽管 "Books3" 数据集已被下线，其发布者Shawn Presser（人工智能开发人员和著名开源人工智能支持者）又在 Twitter 上发布了两个新的下载链接。反盗版组织表示将继续追踪和打击存有该数据集的网站。

尽管如此，大型科技公司在训练 AI 模型时使用版权数据的普遍性，但这些公司并不会公开发布其训练数据，这造成了与个人和非营利项目的不公平竞争。反盗版组织表示，AI 对版权产生了新的挑战，需要加强监管和规范。

据了解，Meta 等公司也使用了 "Books3" 数据集来训练 AI 模型。在描述原始 LlaMA 语言模型的白皮书中，Meta 研究人员将 Books3描述为“用于训练大型语言模型的公开数据集”。Meta 引用了来自The Pile的这个数据集。另外，OpenAI 的 GPT-3模型使用 Books2训练集来训练其 AI。Books1和 Books2都占 GPT-3训练数据的近15%。

ChatGPT源码推荐：小狐狸ChatGPT付费创作系统完全开源源码

洗烘一体的大成典范三星AI神黑钻热泵洗烘旗舰实力上榜AI Combo NO.1

2024-11-012.4万阅读

首页

IT业界

热点视频

站长资讯

好物榜

更多分类

更多主题

反盗版组织下线AI训练数据集 “Books3” Meta大模型也曾使用

推荐关键词

24小时热搜

大家正在看

AI PC升级！Redmi Book Pro 14/16 2024宣布邀测小米AI创作、AI搜图

思必驰AI办公本Turbo：职场与学习的智能伙伴

AI日报：快手推“可灵AI”独立APP；百度将推AI智能眼镜；智谱AI开源CogVideoX v1.5并上线“新清影”；Krea AI上线Lora训练功能

洗烘一体的大成典范三星AI神黑钻热泵洗烘旗舰实力上榜AI Combo NO.1

生成式 AI 势如破竹，衡石科技5.3新版本定义下一代 AI+BI 形态

我用AI 3D，终于实现了我的手办自由。

所有AI应用的尽头，是MBTI？

思必驰AI办公本Turbo发布，大模型助力高效办公和知识管理

Grok 3证明黎曼猜想，训练遭灾难性事件？数学家称不夸张，两年内AI将解出千禧年难题

国内外AI应用赋能电商发展，激活数据资产价值

双11特惠，不满减，无套路，AI数字人分身、AI视频、AI论文等各种AI相关产品价格一步到底 !

AI日报：360将发布新一代AI搜索；蜜雪冰城进军AI领域；Suno v4新增翻唱等功能

AI日报：Claude上线数据分析功能；KREA AI推出视频延展功能；Midjourney新增图像编辑器；苹果悬赏百万寻找AI漏洞

智谱AI的AutoGLM后，Google和微软也下场来做“贾维斯”了。

华为李鹏：拥抱移动AI时代，开创MBB商业新范式

AI“弄潮儿”，数据资产智能化——瓴羊Dataphin V4.3 升级亮点

用AI打败AI！荣耀MagicOS 9.0支持AI换脸检测堪比照妖镜

“AI微信”，来了？！！

AI日报：xAI面向开发者推出API；天工AI发布AI高级搜索功能；Claude 3.5 Haiku上线

AI 赋能，科大讯飞 AI 文娱论坛见证重大发布

首页

IT业界

热点视频

站长资讯

好物榜

更多分类

更多主题

反盗版组织下线AI训练数据集 “Books3” Meta大模型也曾使用

推荐关键词

24小时热搜

大家正在看

AI PC升级！Redmi Book Pro 14/16 2024宣布邀测小米AI创作、AI搜图

思必驰AI办公本Turbo：职场与学习的智能伙伴

AI日报：快手推“可灵AI”独立APP；百度将推AI智能眼镜；智谱AI开源CogVideoX v1.5并上线“新清影”；Krea AI上线Lora训练功能

洗烘一体的大成典范 三星AI神黑钻热泵洗烘旗舰实力上榜AI Combo NO.1

生成式 AI 势如破竹，衡石科技5.3新版本定义下一代 AI+BI 形态

我用AI 3D，终于实现了我的手办自由。

所有AI应用的尽头，是MBTI？

思必驰AI办公本Turbo发布，大模型助力高效办公和知识管理

Grok 3证明黎曼猜想，训练遭灾难性事件？数学家称不夸张，两年内AI将解出千禧年难题

国内外AI应用赋能电商发展，激活数据资产价值

双11特惠，不满减，无套路，AI数字人分身、AI视频、AI论文等各种AI相关产品价格一步到底 !

AI日报：360将发布新一代AI搜索；蜜雪冰城进军AI领域；Suno v4新增翻唱等功能

AI日报：Claude上线数据分析功能；KREA AI推出视频延展功能；Midjourney新增图像编辑器；苹果悬赏百万寻找AI漏洞

智谱AI的AutoGLM后，Google和微软也下场来做“贾维斯”了。

华为李鹏：拥抱移动AI时代，开创MBB商业新范式

AI“弄潮儿”，数据资产智能化——瓴羊Dataphin V4.3 升级亮点

用AI打败AI！荣耀MagicOS 9.0支持AI换脸检测 堪比照妖镜

“AI微信”，来了？！！

AI日报：xAI面向开发者推出API；天工AI发布AI高级搜索功能；Claude 3.5 Haiku上线

AI 赋能，科大讯飞 AI 文娱论坛见证重大发布

洗烘一体的大成典范三星AI神黑钻热泵洗烘旗舰实力上榜AI Combo NO.1

用AI打败AI！荣耀MagicOS 9.0支持AI换脸检测堪比照妖镜