站长之家 - 业界 2023-10-26 10:21

MIT等机构推出数据溯源平台解决AI领域的数据透明危机

🔍 划重点:
1. 研究人员联合MIT、Cohere for AI等机构发布了Data Provenance Platform，旨在解决AI领域的数据透明危机。
2. 他们对近2，000个广泛使用的微调数据集进行了审计和追踪，这些数据集已被下载数千万次，是许多自然语言处理（NLP）突破的基础。
3. 报告指出，数据集的溯源和透明度问题可能导致数据泄漏、暴露个人身份信息、出现意外偏见或行为，从而降低了模型的质量，同时也带来了法律和伦理风险。

站长之家(ChinaZ.com) 10月26日消息:研究人员来自麻省理工学院（MIT）、Cohere for AI以及其他11个机构，他们共同发布了Data Provenance Platform，旨在应对AI领域的数据透明危机。这一平台的推出旨在解决AI模型训练数据集的来源和使用透明度不足的问题，这是当前AI领域亟待解决的挑战之一。

脑机接口 AI机器人

图源备注：图片由AI生成，图片授权服务商Midjourney

这个跨机构合作的倡议审计和追踪了近2，000个广泛使用的微调数据集。这些数据集被下载了数千万次，被认为是许多自然语言处理（NLP）领域突破的基础。这一举措的发起者包括MIT Media Lab的博士候选人Shayne Longpre和Cohere for AI的负责人Sara Hooker。

这个跨学科倡议的结果是迄今为止规模最大的AI数据集审计。这些数据集首次包含了标签，用于指示原始数据来源、多次重新授权、创建者和其他数据属性。为了使这些信息实际可操作并易于获取，他们还开发了一个名为"Data Provenance Explorer"的互动平台，允许开发人员根据法律和伦理考虑来跟踪和筛选成千上万个数据集，同时也让学者和记者探索流行AI数据集的组成和数据渊源。

与此同时，他们还发布了一份名为"The Data Provenance Initiative: A Large Scale Audit of Dataset Licensing & Attribution in AI"（数据来源倡议:人工智能中数据集许可和归属的大规模审计）的研究报告。报告指出，越来越多的广泛使用的数据集被视为单一整体，而不是一系列数据来源，这些数据经过多次包装和重新授权。这种处理方式的缺点在于，它们通常不充分注明数据来源和版权信息，这导致了对训练数据的理解不足。这一不足可能导致训练数据和测试数据之间的数据泄漏，暴露个人身份信息，导致意外的偏见或行为，最终降低了模型的质量。此外，这也带来了伦理和法律风险，例如，模型发布与数据使用条款可能相互抵触。这些挑战都不容易解决，因为在数据上训练模型既昂贵又基本不可逆转。

Data Provenance Platform的推出有望改善AI领域的数据透明度，提高数据集的质量和伦理合规性，从而推动AI技术的可持续发展。这一举措也将有助于减少AI模型中的潜在问题，如偏见、数据泄漏和法律风险，为AI技术的广泛应用提供更可靠的基础。

24小时热搜

热
4.53万次阅读
1 沙特申博宣传片真是中国拍的网友：这风格意境是中国的手笔
70991次阅读
2 南方人东北购物被店主语气“凶哭”：文化差异导致误解
58002次阅读
3 女子下班回家发现家门口被贴U盘：新型诈骗手段？
39073次阅读
4 爸爸送娃撂下就走结果学校没开门：交警协助联系安全返家
37434次阅读
热
3.23万次阅读
5 宗庆后在黄金地段为员工建廉租房：从不裁45岁以上员工我算有钱
30095次阅读
荐 2020年高通骁龙CPU排名高通骁龙888排名领先
35420次阅读

查看更多内容

首页

IT业界

热点视频

站长资讯

好物榜

更多分类

更多主题

MIT等机构推出数据溯源平台解决AI领域的数据透明危机

推荐关键词

24小时热搜

大家正在看

国内外AI应用赋能电商发展，激活数据资产价值

全球高校数据科学日：与知名高校教授探索数据科学与AI前沿技术

神策数据客户旅程 GPT：以 AI 驱动客户旅程及埋点落地

AI日报：Claude上线数据分析功能；KREA AI推出视频延展功能；Midjourney新增图像编辑器；苹果悬赏百万寻找AI漏洞

AI“弄潮儿”，数据资产智能化——瓴羊Dataphin V4.3 升级亮点

双11特惠，不满减，无套路，AI数字人分身、AI视频、AI论文等各种AI相关产品价格一步到底 !

用AI打败AI！荣耀MagicOS 9.0支持AI换脸检测堪比照妖镜

AI 赋能，科大讯飞 AI 文娱论坛见证重大发布

苦等7年！《白夜追凶》续集《白夜破晓》正式开播：首发直接更4集

英伟达CEO黄仁勋：AI取代不了人但不用AI的人将被用AI的人取代

秘塔AI上线“知识库”，他们直接超进化成AI搜索完全体了。

RTX 加速AI 创作，开启AI 商业设计速度革命！

大佬喊话，AI寒冬已来？

国产“三蹦子”在意大利车展火了：穿梭自如集多种功能于一身

英伟达发布视觉AI Agent，能用AI总结真实世界了

AI+？，吸量又赚钱

当AI搜索开始赚钱养家

淘天AI打算让吴泳铭等多久？

《守护与智友》创意快报第二期：万圣节主题桌宠合集！

AI版《我的世界》震撼欧美，AI实时生成游戏成下一个大风口？

首页

IT业界

热点视频

站长资讯

好物榜

更多分类

更多主题

MIT等机构推出数据溯源平台 解决AI领域的数据透明危机

推荐关键词

24小时热搜

大家正在看

国内外AI应用赋能电商发展，激活数据资产价值

全球高校数据科学日：与知名高校教授探索数据科学与AI前沿技术

神策数据客户旅程 GPT：以 AI 驱动客户旅程及埋点落地

AI日报：Claude上线数据分析功能；KREA AI推出视频延展功能；Midjourney新增图像编辑器；苹果悬赏百万寻找AI漏洞

AI“弄潮儿”，数据资产智能化——瓴羊Dataphin V4.3 升级亮点

双11特惠，不满减，无套路，AI数字人分身、AI视频、AI论文等各种AI相关产品价格一步到底 !

用AI打败AI！荣耀MagicOS 9.0支持AI换脸检测 堪比照妖镜

AI 赋能，科大讯飞 AI 文娱论坛见证重大发布

苦等7年！《白夜追凶》续集《白夜破晓》正式开播：首发直接更4集

英伟达CEO黄仁勋：AI取代不了人 但不用AI的人将被用AI的人取代

秘塔AI上线“知识库”，他们直接超进化成AI搜索完全体了。

RTX 加速AI 创作，开启AI 商业设计速度革命！

大佬喊话，AI寒冬已来？

国产“三蹦子”在意大利车展火了：穿梭自如 集多种功能于一身

英伟达发布视觉AI Agent，能用AI总结真实世界了

AI+？，吸量又赚钱

当AI搜索开始赚钱养家

淘天AI打算让吴泳铭等多久？

《守护与智友》创意快报第二期：万圣节主题桌宠合集！

AI版《我的世界》震撼欧美，AI实时生成游戏成下一个大风口？

MIT等机构推出数据溯源平台解决AI领域的数据透明危机

用AI打败AI！荣耀MagicOS 9.0支持AI换脸检测堪比照妖镜

英伟达CEO黄仁勋：AI取代不了人但不用AI的人将被用AI的人取代

国产“三蹦子”在意大利车展火了：穿梭自如集多种功能于一身