谷歌DeepMind推出“超人类”AI系统SAFE，擅长事实核查，节约成本并提高准确性

划重点:
🔍 研究人员开发了名为SAFE的AI系统，使用大型语言模型来评估信息的准确性。
💰 SAFE的使用成本约为人工事实检查的20倍，可大大降低成本。
💡 研究引发了“超人类”表现的争议，需要更多透明度和人类基准来评估其真实效果。

站长之家（ChinaZ.com）3月29日消息:谷歌DeepMind的研究团队发布了一项新研究，介绍了一种名为“Search-Augmented Factuality Evaluator （SAFE）”的人工智能系统。该系统利用大型语言模型将生成的文本分解成个别事实，并利用谷歌搜索结果来确定每个声明的准确性。研究发现，SAFE在评估大型语言模型生成的信息准确性方面优于人工事实检查员。

与人工标注员的对比显示，SAFE的评估结果与人工评级的一致率达到了72%。更值得注意的是，在100个SAFE与人工评级者之间存在分歧的样本中，SAFE的判断在76%的情况下被证明是正确的。然而，研究中“超人类”表现的说法引发了争议，一些专家质疑这里的“超人类”到底是什么意思。他们认为，需要更多透明度和人类基准来评估SAFE的真实效果，而不仅仅是依赖于众包工人。

SAFE的应用成本约为人工事实检查的20倍，这意味着它可以大大降低事实核查的成本。研究团队还使用SAFE评估了13个顶级语言模型的事实准确性，并发现较大型的模型通常产生较少的错误。尽管最佳模型的表现仍然存在一定数量的错误，但自动事实检查工具如SAFE可能在减少这些风险方面发挥关键作用。

虽然SAFE的代码和LongFact数据集已在GitHub上开源，但研究人员指出，仍需要更多关于研究中使用的人类基准的透明度。正因如此，技术巨头们竞相开发越来越强大的语言模型，自动核查这些系统输出的信息的能力可能变得至关重要。SAFE等工具代表着建立新的信任和责任层面的重要一步。

然而，关键是这类重要技术的发展必须在开放的环境中进行，并获得来自广泛利益相关者的意见。严格、透明地与人类专家进行基准测试将是衡量真正进步的关键所在。只有这样，我们才能评估自动事实检查对打击错误信息的实际影响。

论文地址：https://arxiv.org/pdf/2403.18802.pdf

抠脚大汉秒变可爱萝莉！实时换脸工具DeepFacelive让你在直播中一秒变脸

2024-04-261.6万阅读

首页

IT业界

热点视频

站长资讯

好物榜

更多分类

更多主题

谷歌DeepMind推出“超人类”AI系统SAFE，擅长事实核查，节约成本并提高准确性

推荐关键词

24小时热搜

大家正在看

谷歌整合 AI 重心，DeepMind 和研究团队合并

DeepMind CEO称谷歌将在 AI 领域投入超过 1000 亿美元

DeepMind首发游戏AI智能体SIMA！只用自然语言就能玩转「山羊模拟器」

微软任命前 DeepMind 专家负责伦敦人工智能中心

「有效上下文」提升20倍！DeepMind发布ReadAgent框架

DeepMind发布Gecko:专注于文档检索性能媲美大7倍模型

谷歌DeepMind CEO哈萨比斯因人工智能贡献获英国爵士爵位

DeepMind终结大模型幻觉？标注事实比人类靠谱、还便宜20倍，全开源

防范“AI换脸”风险！蚂蚁数科正式发布ZOLOZ Deeper

AI换脸以假乱真！蚂蚁数科发布反DeepFake产品，还设百万奖金池邀请黑客找bug

GLM团队AI编程助手CodeGeeX插件在Visual Studio上线

抠脚大汉秒变可爱萝莉！实时换脸工具DeepFacelive让你在直播中一秒变脸

开源AI平台Lightning AI发布AI编译器“Thunder”以加速模型训练

Redmi Turbo 3搭载冰封散热系统：支持AI智能温控

MiniGPT4-Video官网体验入口视频理解多模态AI大模型使用地址

AI风险管理初创公司ValidMind筹集810万美元，助力银行遵守监管要求

Midreal.ai官网体验入口 AI文本冒险游戏免费使用地址

开源大模型AI代理操作系统：像Windos一样，操控AI代理

再见，AI意识先驱：Daniel Dennett

AI日报：会颠勺的国产机器人Astribot S1来了；Synthesia推能读懂文字情绪的数字人；OpenVoice V2版本发布；DeepFacelive让你在直播中实时换脸

首页

IT业界

热点视频

站长资讯

好物榜

更多分类

更多主题

谷歌DeepMind推出“超人类”AI系统SAFE，擅长事实核查，节约成本并提高准确性

推荐关键词

24小时热搜

大家正在看

​谷歌整合 AI 重心，DeepMind 和研究团队合并

DeepMind CEO称谷歌将在 AI 领域投入超过 1000 亿美元

DeepMind首发游戏AI智能体SIMA！只用自然语言就能玩转「山羊模拟器」

微软任命前 DeepMind 专家负责伦敦人工智能中心

「有效上下文」提升20倍！DeepMind发布ReadAgent框架

DeepMind发布Gecko:专注于文档检索 性能媲美大7倍模型

谷歌DeepMind CEO哈萨比斯因人工智能贡献获英国爵士爵位

DeepMind终结大模型幻觉？标注事实比人类靠谱、还便宜20倍，全开源

防范“AI换脸”风险！ 蚂蚁数科正式发布ZOLOZ Deeper

AI换脸以假乱真！蚂蚁数科发布反DeepFake产品，还设百万奖金池邀请黑客找bug

GLM团队AI编程助手CodeGeeX插件在Visual Studio上线

抠脚大汉秒变可爱萝莉！实时换脸工具DeepFacelive让你在直播中一秒变脸

开源AI平台Lightning AI发布AI编译器“Thunder”以加速模型训练

Redmi Turbo 3搭载冰封散热系统：支持AI智能温控

MiniGPT4-Video官网体验入口 视频理解多模态AI大模型使用地址

AI风险管理初创公司ValidMind筹集810万美元，助力银行遵守监管要求

Midreal.ai官网体验入口 AI文本冒险游戏免费使用地址

开源大模型AI代理操作系统：像Windos一样，操控AI代理

再见，AI意识先驱：Daniel Dennett

AI日报：会颠勺的国产机器人Astribot S1来了；Synthesia推能读懂文字情绪的数字人；OpenVoice V2版本发布；DeepFacelive让你在直播中实时换脸

谷歌整合 AI 重心，DeepMind 和研究团队合并

DeepMind发布Gecko:专注于文档检索性能媲美大7倍模型

防范“AI换脸”风险！蚂蚁数科正式发布ZOLOZ Deeper

MiniGPT4-Video官网体验入口视频理解多模态AI大模型使用地址