站长之家(ChinaZ.com) 10 月 20 日消息:Facebook 母公司 Meta 当地时间周五正式发布了一批来自其研究部门的新 AI 模型,其中包括一个名为「自学评估器」(Self-Taught Evaluator)的模型,这可能为减少人类在 AI 开发过程中的参与度提供了一条新路径。
此次发布紧随 Meta 在 8 月份一篇论文中介绍该工具之后,该论文详细说明了如何依赖与 OpenAI 最近发布的 o1 模型中使用的「思维链」技术,来让模型对其输出进行可靠判断。
这一技术通过将复杂问题拆解为更小的逻辑步骤,显著提高了在科学、编程和数学等领域解决难题的准确性。
Meta 的研究人员完全使用 AI 生成的数据来训练这个评估器模型,完全消除了人工输入的需求。
使用 AI 可靠地评估 AI 的能力展示了未来实现自主 AI 智能体的可能路径。该项目的两位 Meta 研究人员向路透社表示,这种 AI 智能体能够从自身错误中学习。
AI 领域的许多人设想,这类智能体可以作为高度智能的数字助手,能够在无需人类干预的情况下执行广泛的任务。
自我改进的 AI 模型有望取代当前常用的昂贵且低效的基于人类反馈的强化学习(RLHF)过程,这种方法要求具有专业知识的人类标注员来标记数据并验证复杂数学和写作问题的答案是否正确。
「我们希望,随着 AI 的发展,它能越来越好地检查自己的工作,从而超越普通人的表现,」该项目研究员之一 Jason Weston 说道。
他说:「自我学习并能自我评估是实现这种超越人类水平 AI 的关键。」
包括谷歌和 Anthropic 在内的其他公司也发布了关于 RLAIF(基于 AI 反馈的强化学习)概念的研究。但与 Meta 不同的是,这些公司通常不公开发布其模型供公众使用。
Meta 在周五发布的其他 AI 工具还包括对公司图像识别模型 Segment Anything 的更新、一种加快大语言模型(LLM)响应生成时间的工具,以及可用于发现新型无机材料的数据集。