社交媒体Bluesky用户数据遭抓取：一百万公开帖子被用于 AI 训练

2024-11-29 10:24 · 来源： AIbase基地

最近，社交媒体平台 Bluesky 面临了一次重大的数据抓取事件。一位机器学习图书管理员丹尼尔・范斯特林（Daniel van Strien）从 Bluesky 的 API 接口上抓取了超过一百万条公开的用户帖子，并将这些数据上传至 AI 公司 Hugging Face。

该数据集包含了用户的去中心化标识符（DID）以及一系列可以搜索特定用户内容的功能。范斯特林表示，这个数据集的主要目的是用于语言模型和自然语言处理的开发，此外还包括社交媒体趋势分析、内容审核及发布模式的研究。

这项数据抓取行动引发了广泛关注，因为 Bluesky 的用户并未同意将其内容用于此类用途。虽然平台并没有明确禁止这种行为，但它的火灾 API 提供了一个 “聚合的、按时间顺序排列的公共数据流”，包括帖子、点赞、关注、账号变更等信息。因此，Bluesky 的内容在理论上是对第三方开发者开放的。

对此，Bluesky 的一位代表表示:“Bluesky 是一个开放和公共的社交网络，就像互联网上的其他网站一样。

虽然 robots.txt 文件并不能总是阻止外部公司抓取这些网站，但情况是类似的。我们希望能够找到一种方式，让 Bluesky 用户可以向外部组织 / 开发者传达他们是否同意使用其数据，并希望外部组织尊重用户的同意，我们正在积极讨论如何实现这一目标。”

这起事件引起了用户的担忧，特别是许多用户是因竞争平台 X 的新 AI 训练政策而转投 Bluesky 的。值得注意的是，在该报道发布后不久，范斯特林从 Hugging Face 上删除了这个数据集。

他在 Bluesky 上表示:“我已从该仓库中删除 Bluesky 数据。虽然我想支持该平台的工具开发，但我意识到这种做法违反了数据收集中的透明度和同意原则。对此，我深感抱歉。”

划重点:
🌐1. 一位机器学习专家抓取了一百万条 Bluesky 的公开帖子，并上传至 AI 公司 Hugging Face，目的是用于机器学习研究。
🔍2. Bluesky 的用户未曾同意使用其数据，平台也并未明确禁止此类数据抓取行为。
🚫3. 数据抓取事件引发用户担忧，范斯特林已将相关数据从 Hugging Face 删除，并对此表示歉意。

备注：资讯来源AIbase基地

爱玛电动车“精品”强势来袭！年轻科技旗舰A7Plus重新定义高端市场

2024-12-202.1万阅读

首页

IT业界

热点视频

站长资讯

好物榜

更多分类

更多主题

社交媒体Bluesky用户数据遭抓取：一百万公开帖子被用于 AI 训练

推荐关键词

24小时热搜

大家正在看

铠侠发布PCIe 5.0 EXCERIA PLUS G4固态硬盘系列

曝苹果研发带Face ID的智能家居门铃：内置自研W-Fi芯片

美国新势力Lucid工程师：已购小米SU7学习如何制造电动汽车

“豪华两轮轿跑”爱玛A7 Plus开启预售

重磅发布：全新CleanMyMac助力您的Mac维护和优化

时尚科技尖锋之作，爱玛A7 Plus一路超神

国产编程语言MoonBit正式被Github收录！两年核心用户数突破3万

Hi畅享70 Plus怎么样？安全、好看，千元级耐用神机

iPhone诈骗频发！中国联通成功开发FaceTime诈骗识别：与苹果联动处置

微信输入法App新增“拼写Plus”功能支持自动匹配颜文字

苹果系统意外泄露新品：M4 MacBook Air即将登场

自然阳光是合法直销吗？从多个维度看其合规性

冬日养颜新姿势！益禾堂带你解锁“慢炖自然好气色”

7座MPV哪个好？上汽大通MAXUS G50 PLUS以实力说话

一加Ace 5系列存储配置曝光：12GB内存起步 24GB版没了

叽里呱啦深耕自然拼读教学助力英语启蒙新发展

见证中国智造，爱玛A7Plus“一路超神”推动行业高质量发展

苹果M5系列芯片明年上半年量产：MacBook Pro首发

爱玛电动车“精品”强势来袭！年轻科技旗舰A7Plus重新定义高端市场

两轮豪华“轿跑” 爱玛A7Plus将于12月18日压轴上场

首页

IT业界

热点视频

站长资讯

好物榜

更多分类

更多主题

社交媒体Bluesky用户数据遭抓取：一百万公开帖子被用于 AI 训练

推荐关键词

24小时热搜

大家正在看

铠侠发布PCIe 5.0 EXCERIA PLUS G4固态硬盘系列

曝苹果研发带Face ID的智能家居门铃：内置自研W-Fi芯片

美国新势力Lucid工程师：已购小米SU7学习如何制造电动汽车

“豪华两轮轿跑”爱玛A7 Plus开启预售

重磅发布：全新CleanMyMac助力您的Mac维护和优化

时尚科技尖锋之作，爱玛A7 Plus一路超神

国产编程语言MoonBit正式被Github收录！两年核心用户数突破3万

Hi畅享70 Plus怎么样？安全、好看，千元级耐用神机

iPhone诈骗频发！中国联通成功开发FaceTime诈骗识别：与苹果联动处置

微信输入法App新增“拼写Plus”功能 支持自动匹配颜文字

苹果系统意外泄露新品：M4 MacBook Air即将登场

自然阳光是合法直销吗？从多个维度看其合规性

冬日养颜新姿势！益禾堂带你解锁“慢炖自然好气色”

7座MPV哪个好？上汽大通MAXUS G50 PLUS以实力说话

一加Ace 5系列存储配置曝光：12GB内存起步 24GB版没了

叽里呱啦深耕自然拼读教学 助力英语启蒙新发展

见证中国智造，爱玛A7Plus“一路超神”推动行业高质量发展

苹果M5系列芯片明年上半年量产：MacBook Pro首发

爱玛电动车“精品”强势来袭！年轻科技旗舰A7Plus重新定义高端市场

两轮豪华“轿跑” 爱玛A7Plus将于12月18日压轴上场

微信输入法App新增“拼写Plus”功能支持自动匹配颜文字

叽里呱啦深耕自然拼读教学助力英语启蒙新发展