OpenAI计划建立「数据市场」，训出GPT-5短缺20万亿 token

划重点:
⭐️ AI 公司面临高质量数据短缺，OpenAI 计划建立「数据市场」
⭐️ 数据供不应求可能导致人工智能发展受阻
⭐️ 公司探索合成数据训练方法以解决数据短缺问题

站长之家(ChinaZ.com) 4月8日消息:全网高质量数据集告急!据报道，AI 公司如 OpenAI、Anthropic 等正在努力寻找足够的信息来训练下一代人工智能模型。数据短缺问题日益突出，对训练下一代强大模型至关重要。面对这一挑战，AI 初创、互联网大厂开始寻找新的方法来解决算力和数据的瓶颈问题。

AI换脸人脸识别 (2)

图源备注：图片由AI生成，图片授权服务商Midjourney

据悉，GPT-5等强大系统的开发需要大量海量数据作为训练材料，然而高质量公共数据在互联网中已变得稀缺。

研究机构Epoch研究人员Pablo Villalobos估计，GPT-4是在多达12万亿个token上训练的。他继续表示，基于Chinchilla缩放定律的原理，如果继续遵循这样扩展轨迹，像GPT-5这样的AI系统将需要60万亿-100万亿token的数据。也就是，利用所有可用的高质最语言和图像数据后，训出 GPT-5仍短缺20万亿 token。

一些数据所有者如 Reddit 等机构也制定政策限制 AI 公司访问数据，加剧了数据短缺的困境。为解决这一难题，一些公司正在尝试通过合成数据训练模型，但可能会面临「模型自噬障碍」等问题。

对于数据稀缺问题，AI 研究人员和公司纷纷寻求解决之道。OpenAI 的 Ari Morcos 指出，数据短缺是一个前沿的研究问题，他的公司 DatologyAI 致力于改进数据选择工具，以降低训练 AI 模型的成本。此外，OpenAI 还在讨论建立「数据市场」，通过确定数据点对模型训练的贡献来支付费用，以帮助缓解数据短缺问题。

数据短缺对 AI 发展构成重大挑战，各公司正在探索不同的方法来解决这一问题。从合成数据到建立数据市场，AI 领域正在不断寻求突破，以确保训练下一代强大人工智能模型所需的数据资源。

怎样保证你不是AGI独裁者？马斯克为何退出OpenAI？早期邮件公开了

2024-11-185906阅读

首页

IT业界

热点视频

站长资讯

好物榜

更多分类

更多主题

OpenAI计划建立「数据市场」，训出GPT-5短缺20万亿 token

推荐关键词

24小时热搜

大家正在看

因算力瓶颈难产！OpenAI：今年将不会发布GPT-5

AI日报：OpenAI将推首款自主AI代理Operator；腾讯元宝2.0版本上线；AI全面加持苹果Final Cut Pro 11

Sam Altman：明年OpenAI将迈入AI系统时代

ChatGPT两岁，OpenAI 10亿用户计划曝光！

细思极恐，GPT-4竟串谋AI欺骗人类！哈佛PSU重磅揭秘「算法共谋」，AI教父预言正成真

AI能办专属信用卡了，Agent自己赚钱自己花，OpenAI合作伙伴打造

OpenAI变深，百度变宽

外媒：OpenAI 、Anthropic、谷歌新模型表现均不及预期

孙正义放大招！又给OpenAI投资15亿美元，非常看好AI发展

AI投毒第一案！GPT写的代码竟有后门程序员被骗1.8万元

炸裂！OpenAI的Sora惨遭泄露，有人用上了！

LG推出首款家庭管家机器人“Q9”：内置GPT-4 Omni

亚马逊将向 OpenAI 最大竞争对手 Anthropic 追加投资 40 亿美元

OpenAI华人VP翁荔离职：北大校友，掌管安全，最近B站分享被热议

AI日报：字节旗下AI助手豆包开启视频生成内测；OpenAI买下Chat.com域名；超清AI图像生成模型FLUX 1.1 Pro Ultra发布

怎样保证你不是AGI独裁者？马斯克为何退出OpenAI？早期邮件公开了

刚刚，OpenAI公开o1模型测试方法，人机协作时代！

OpenAI错过的7个月，智能体2.0借终端爆发？

超GPT-4o，1240亿参数！最强开源多模态模型 Pixtral Large！

重磅！GPT-4o升级到最新版本1120，重回榜首，API同步更新！

首页

IT业界

热点视频

站长资讯

好物榜

更多分类

更多主题

OpenAI计划建立「数据市场」，训出GPT-5短缺20万亿 token

推荐关键词

24小时热搜

大家正在看

因算力瓶颈难产！OpenAI：今年将不会发布GPT-5

AI日报：OpenAI将推首款自主AI代理Operator；腾讯元宝2.0版本上线；AI全面加持苹果Final Cut Pro 11

Sam Altman：明年OpenAI将迈入AI系统时代

ChatGPT两岁，OpenAI 10亿用户计划曝光！

细思极恐，GPT-4竟串谋AI欺骗人类！哈佛PSU重磅揭秘「算法共谋」，AI教父预言正成真

AI能办专属信用卡了，Agent自己赚钱自己花，OpenAI合作伙伴打造

OpenAI变深，百度变宽

外媒：OpenAI 、Anthropic、谷歌新模型表现均不及预期

孙正义放大招！又给OpenAI投资15亿美元，非常看好AI发展

AI投毒第一案！GPT写的代码竟有后门 程序员被骗1.8万元

炸裂！OpenAI的Sora惨遭泄露，有人用上了！

LG推出首款家庭管家机器人“Q9”：内置GPT-4 Omni

亚马逊将向 OpenAI 最大竞争对手 Anthropic 追加投资 40 亿美元

OpenAI华人VP翁荔离职：北大校友，掌管安全，最近B站分享被热议

AI日报：字节旗下AI助手豆包开启视频生成内测；OpenAI买下Chat.com域名；超清AI图像生成模型FLUX 1.1 Pro Ultra发布

怎样保证你不是AGI独裁者？马斯克为何退出OpenAI？早期邮件公开了

刚刚，OpenAI公开o1模型测试方法，人机协作时代！

OpenAI错过的7个月，智能体2.0借终端爆发？

超GPT-4o，1240亿参数！最强开源多模态模型 Pixtral Large！

重磅！GPT-4o升级到最新版本1120，重回榜首，API同步更新！

AI投毒第一案！GPT写的代码竟有后门程序员被骗1.8万元