MIT微软证实GPT-4具备自我纠错能力较弱的模型则没有这种能力

站长之家（ChinaZ.com）7月5日消息:最近，麻省理工学院（MIT）和微软的研究学者发现，GPT-4在自修复方面表现出了有效能力，而GPT-3.5则没有。此外，GPT-4还能够对GPT-3.5生成的代码提供反馈。

大型语言模型（LLM）已经被证明可以从自然语言中生成代码片段，但在应对复杂的编码挑战，例如专业竞赛和软件工程专业面试时，仍然面临巨大挑战。最近的研究试图通过自修复来提高模型的编码性能，自修复是指模型反思并纠正自身代码中的错误。

论文地址：https://arxiv.org/pdf/2306.09896.pdf

从本研究的实验中，研究者得出以下发现:

考虑到检查和修复的成本，只有GPT-4的自修复能力能够提供性能收益;对于GPT-3.5，在所有配置下，修复的通过率低于或等于基线模型或无修复方法的通过率。

即使对于GPT-4，性能提升也是适度的（从66%提升到71%的通过率），而且取决于初始程序是否具有足够的多样性。实验的预算是使用7000个标记，约45个独立同分布(i.i.d.)的GPT-4样本。

使用GPT-4生成的反馈替代GPT-3.5对错误的解释，可以获得更好的自修复性能，甚至超过了基线的无修复GPT-3.5方法（从50%提升到使用7000个标记时的54%）。

使用人类的解释代替GPT-4自身的解释可以显著改善修复结果，从而使通过测试的修复程序数量增加57%。

爱丁堡大学的博士生符尧表示:“只有GPT-4具备自我改进的能力，而较弱的模型则没有，这一发现非常有趣，表明大型模型可能具有一种新型的涌现能力，即通过改进自然语言反馈来实现，这种能力可能只存在于模型足够成熟（大而整齐）的情况下。类似的能力在论文《Improving Language Model Negotiation with Self-Play and In-Context Learning from AI Feedback》中也有提及。”

为什么被称为“AI世界杯”？还原联想集团对AI和体育赛事的理解

2026-07-162.3万阅读

首页

IT业界

热点视频

站长资讯

好物榜

更多分类

更多主题

MIT微软证实GPT-4具备自我纠错能力较弱的模型则没有这种能力

推荐关键词

24小时热搜

大家正在看

像真人聊天！OpenAI发布GPT-Live：AI可同步听与说

AI日报：苹果Xcode 26.6正式发布；美团“小店有AI”行动落地北京；OpenAI受限发布GPT-5.6

重磅福利！OpenAI官宣：GPT 5.5 Instant明日全民免费

AI日报：豆包千问同日下线智能体功能；GPT-5.6Sol被曝自主删除用户数据库；京东AI Agent与腾讯元宝打通小程序生态

AI日报：GPT5.6系列模型发布 Codex消失;腾讯拟接盘Manus成最大股东；MiniMax创始人宣布零薪酬直至实现AGI

AI日报：Claude Cowork登陆网页和手机端；美国放行GPT-5.6；Meta超级智能实验室首发图像生成模型

OpenAI最强模型！Gpt-5.6系列发布：Codex、ChatGpt Work智能体三合一

从AI PC到AI主机，AI终端哪家强：联想集团端边云全栈领先

供应链 X AI，京东批量创造 AI 新物种

2026AI培训顾问公司推荐，地产行业AI培训，上市公司AI培训，服装行业AI培训，AI获客培训，零售行业AI培训顾问公司优选指南

2026AI培训机构推荐，服装行业AI培训，AI内容生产，上市公司AI培训，500强企业AI培训，AI获客机构优选指南!

阿里AI，进入以战养战

成立AI新部门、Tabbit狂飙，美团能否挤上AI牌桌？

腾讯AI，翻身了吗？

AI如何重塑2026世界杯：联想集团和FIFA的全球AI作战室

为什么被称为“AI世界杯”？还原联想集团对AI和体育赛事的理解

技嘉展示 AI TOP ATOM 四机串联集群，以科学运算验证地端 AI 扩展能力

巨头竞逐“国民级AI应用”

AI支付没有激战，大厂也带不动？

AI恋人，集体失联背后

首页

IT业界

热点视频

站长资讯

好物榜

更多分类

更多主题

MIT微软证实GPT-4具备自我纠错能力 较弱的模型则没有这种能力

推荐关键词

24小时热搜

大家正在看

像真人聊天！OpenAI发布GPT-Live：AI可同步听与说

AI日报：苹果Xcode 26.6正式发布；美团“小店有AI”行动落地北京；OpenAI受限发布GPT-5.6

重磅福利！OpenAI官宣：GPT 5.5 Instant明日全民免费

AI日报：豆包千问同日下线智能体功能；GPT-5.6Sol被曝自主删除用户数据库；京东AI Agent与腾讯元宝打通小程序生态

AI日报：GPT5.6系列模型发布 Codex消失;腾讯拟接盘Manus成最大股东；MiniMax创始人宣布零薪酬直至实现AGI

AI日报：Claude Cowork登陆网页和手机端；美国放行GPT-5.6；Meta超级智能实验室首发图像生成模型

OpenAI最强模型！Gpt-5.6系列发布：Codex、ChatGpt Work智能体三合一

从AI PC到AI主机，AI终端哪家强：联想集团端边云全栈领先

供应链 X AI，京东批量创造 AI 新物种

2026AI培训顾问公司推荐，地产行业AI培训，上市公司AI培训，服装行业AI培训，AI获客培训，零售行业AI培训顾问公司优选指南

2026AI培训机构推荐，服装行业AI培训，AI内容生产，上市公司AI培训，500强企业AI培训，AI获客机构优选指南!

阿里AI，进入以战养战

成立AI新部门、Tabbit狂飙，美团能否挤上AI牌桌？

腾讯AI，翻身了吗？

AI如何重塑2026世界杯：联想集团和FIFA的全球AI作战室

为什么被称为“AI世界杯”？还原联想集团对AI和体育赛事的理解

技嘉展示 AI TOP ATOM 四机串联集群，以科学运算验证地端 AI 扩展能力

巨头竞逐“国民级AI应用”

AI支付没有激战，大厂也带不动？

AI恋人，集体失联背后

MIT微软证实GPT-4具备自我纠错能力较弱的模型则没有这种能力