站长之家 - 业界 2024-01-19 14:07

新AI框架 AboutMe：用网页中自我描述来记录英语预训练数据过滤器的效果

划重点:
- 💡 研究人员介绍了一个名为 AboutMe 的新数据集和框架，用于记录数据过滤对文本的影响。
- 💡 通过分析网页的 “关于我” 部分，研究团队测量了网站作者的兴趣、社会角色和地理位置等信息。
- 💡 研究强调了预训练数据筛选过程中的复杂性，并呼吁进一步研究其社会影响。

站长之家（ChinaZ.com）1月19日消息:随着自然语言处理和自然语言生成的进步，大型语言模型（LLMs）在实际应用中得到了广泛使用。由于它们能够模仿人类行为，并具有通用性，这些模型已经涉足各个领域。

虽然这些模型引起了相当大的关注，但它们代表了一组受限和偏向的人类观点和知识。预训练数据的组成是造成这种偏见的原因，因为它对模型的行为产生了重大影响。

图源备注：图片由AI生成，图片授权服务商Midjourney

研究人员一直在努力着重理解和记录在预训练之前对数据所做的转换。预训练数据的筛选是一个多步骤的过程，其中有多个决策点，这些决策点通常基于主观的文本质量判断或与基准测试的性能。

最近，来自艾伦人工智能研究所、加利福尼亚大学伯克利分校、埃默里大学、卡内基梅隆大学和华盛顿大学的研究人员介绍了一个名为 AboutMe 的新数据集和框架。该研究强调了数据筛选工作流中存在的许多未经质疑的假设。通过 AboutMe，研究团队试图记录对社会和地理背景相关的文本进行数据过滤的影响。

在自然语言处理中，缺乏与语言数据相关联的广泛的自我报告社会人口学数据是一个问题。文本可以追溯到维基百科等一般来源，但在更细粒度的层面上，通常不知道谁创建了这些信息。在这项研究中，研究团队利用 Web 数据中的预设模式，找到了网站，特别是 “关于我” 页面。这使得我们可以对被网络爬虫获取的文本中所代表的语言的创作者有前所未有的了解。

研究人员将网络文本（一种流行的预训练数据源）与其社会和地理背景联系起来。研究团队使用来自网站的 “关于我” 部分的数据，进行社会语言学分析，测量了网站作者的兴趣、社会角色、关联地理位置等。他们创建了一个包含1030万个网站创建者自我描述的新数据集，并提取有关他们是谁、来自哪里的信息:他们的主题兴趣、社会角色和地理归属。

然后，他们对这些网页应用了之前在 LLM 开发研究中使用的十个质量和英语 ID 过滤器，以检查过滤对保留或删除页面的影响。

研究团队表示，他们的主要目标是发现在过滤器内部和之间，与网站来源相关的行为趋势。结果显示，基于模型的质量过滤器显示出对特定主题领域的隐含偏好，导致与各种专业和职业相关的文本以不同的比率被删除。此外，那些假设页面是单语言的过滤技术可能无意中删除了来自非英语地区的内容。

这项研究突显了 LLM 开发过程中数据筛选的复杂性以及对语言模型中各种观点呈现的影响。该研究的主要目标是提高人们对预训练数据筛选程序的细节的认识，尤其是在考虑社会因素时。研究团队强调了对预训练数据筛选程序及其社会影响进行更多研究的需求。

项目网址：https://github.com/lucy3/whos_filtered

论文网址：https://arxiv.org/abs/2401.06408

24小时热搜

热
4.53万次阅读
1 沙特申博宣传片真是中国拍的网友：这风格意境是中国的手笔
70991次阅读
2 南方人东北购物被店主语气“凶哭”：文化差异导致误解
58002次阅读
3 女子下班回家发现家门口被贴U盘：新型诈骗手段？
39073次阅读
4 爸爸送娃撂下就走结果学校没开门：交警协助联系安全返家
37434次阅读
热
3.23万次阅读
5 宗庆后在黄金地段为员工建廉租房：从不裁45岁以上员工我算有钱
30095次阅读
荐 2020年高通骁龙CPU排名高通骁龙888排名领先
35420次阅读

查看更多内容

首页

IT业界

热点视频

站长资讯

好物榜

更多分类

更多主题

新AI框架 AboutMe：用网页中自我描述来记录英语预训练数据过滤器的效果

推荐关键词

24小时热搜

大家正在看

2026劳务用工全链路数字化，子弹人力云工伤风控理赔一体化落地

雕妹联名来袭！B850 AORUS ELITE-P ICE 主板首发特典活动开启

适合养猫女生的轻便吸尘器怎么选？友望金箍棒吸尘器产品实测解析

AnySearch 面向全球推出“学生与开发者成长计划”

芯位学科大模型V2.0：让教育AI从“通用回答”走向“专业解答”

2026徒步运动相机盘点：谁是记录旅途的理想搭档？

原厂打印机租赁门槛到底有多高？汉印超激鼓凭什么能做好租赁服务

vivo携手FIRST青年电影展举办第七届超短片颁奖礼

雅致酒店荣膺金创意ID+G国际空间设计大奖·铂金大奖

微星机箱再添新作 VIXTA 300维斯塔机箱双版本齐发

潜水运动相机哪个品牌好：防水深度与画质表现全面盘点

2026电动滑板车选购指南：九号四款滑板车配置与续航全解读

架构定段位：彻底理清骁龙8s与至尊版的核心误区

RGB-Mini LED原生真彩成画质分水岭？2026高端电视推荐看这一篇就够

旅行运动相机品牌10：哪一款能满足你的全场景记录？

硬核辟谣：根本不存在骁龙8s至尊版！一文读懂高通官方命名规则

一车三迭代｜九州之鹰以奔腾 B70 案例树立车载互联精细适配标杆

2026上半年全球智慧家庭专利榜：全球前5名，中企占3席

不玩营销概念！同样是高色域电视，RGB-Mini LED凭什么成为高端首选？

全面回顾联想集团如何以混合式AI支撑AI世界杯

首页

IT业界

热点视频

站长资讯

好物榜

更多分类

更多主题

​新AI框架 AboutMe：用网页中自我描述来记录英语预训练数据过滤器的效果

推荐关键词

24小时热搜

大家正在看

2026劳务用工全链路数字化，子弹人力云工伤风控理赔一体化落地

雕妹联名来袭！B850 AORUS ELITE-P ICE 主板首发特典活动开启

适合养猫女生的轻便吸尘器怎么选？友望金箍棒吸尘器产品实测解析

AnySearch 面向全球推出“学生与开发者成长计划”

芯位学科大模型V2.0：让教育AI从“通用回答”走向“专业解答”

2026徒步运动相机盘点：谁是记录旅途的理想搭档？

原厂打印机租赁门槛到底有多高？汉印超激鼓凭什么能做好租赁服务

vivo携手FIRST青年电影展举办第七届超短片颁奖礼

雅致酒店荣膺金创意ID+G国际空间设计大奖·铂金大奖

微星机箱再添新作 VIXTA 300维斯塔机箱双版本齐发

潜水运动相机哪个品牌好：防水深度与画质表现全面盘点

2026电动滑板车选购指南：九号四款滑板车配置与续航全解读

架构定段位：彻底理清骁龙8s与至尊版的核心误区

RGB-Mini LED原生真彩成画质分水岭？2026高端电视推荐看这一篇就够

旅行运动相机品牌10：哪一款能满足你的全场景记录？

硬核辟谣：根本不存在骁龙8s至尊版！一文读懂高通官方命名规则

一车三迭代｜九州之鹰以奔腾 B70 案例树立车载互联精细适配标杆

2026上半年全球智慧家庭专利榜：全球前5名，中企占3席

不玩营销概念！同样是高色域电视，RGB-Mini LED凭什么成为高端首 选？

全面回顾联想集团如何以混合式AI支撑AI世界杯

新AI框架 AboutMe：用网页中自我描述来记录英语预训练数据过滤器的效果

不玩营销概念！同样是高色域电视，RGB-Mini LED凭什么成为高端首选？