思维链被推翻！纽约大学新研究：大模型推理步骤或可省略

站长之家（ChinaZ.com）5月15日消息:纽约大学的最新研究对当前流行的思维链（Chain-of-Thought，CoT）技术提出了挑战，该技术原本被认为能够提升大模型的推理能力。研究显示，使用省略号代替具体的推理步骤，模型的推理结果并没有显著差异，这意味着增加计算量而非推理步骤本身可能是提升性能的关键。

论文地址:https://arxiv.org/pdf/2404.15758

研究要点

省略号代替推理步骤:研究发现，将思维链推理中的具体步骤替换为省略号（...），模型的推理结果与完整步骤的推理结果相差无几。
性能提升来源:实验结果表明，所谓的性能提升可能只是因为大模型获得了更多的计算资源（token数量），而非真正的推理步骤。
隐藏推理:该发现还引发了关于模型可能在不可见的情况下进行隐藏推理的讨论，这在一定程度上脱离了人类的控制。

实验设计

3SUM问题:设计了一个难度较高的3SUM问题，要求模型在序列中挑选满足条件的3个数，实验中使用了填充token的方法，并与CoT解决方案进行对比。

2SUM-Transform任务:第二个任务是2SUM-Transform，通过将输入数字进行随机偏移，防止模型直接计算，实验结果显示填充token的方法精度接近CoT。

研究结论

填充token的有效性:研究表明，使用重复的省略号作为填充token可以达到与CoT相似的效果。

局限性:尽管填充token方法有效，但它并没有突破Transformer的计算复杂度上限，且需要特定的训练过程。

这项研究为AI领域带来了新的视角，提示我们在设计和使用大型语言模型时，需要更深入地理解其工作原理和性能提升的真正来源。同时，也引发了关于AI安全性和未来发展的进一步思考。

你还说这是AI？我们体验了一波生成亚洲人最好看的文生图大模型

2024-12-304130阅读

首页

IT业界

热点视频

站长资讯

好物榜

更多分类

更多主题

思维链被推翻！纽约大学新研究：大模型推理步骤或可省略

推荐关键词

24小时热搜

大家正在看

大模型不再有信仰

我们正在大模型产品面前“裸奔”么

大模型，在内卷中寻找出口

大模型落地战，挺进大消费

大模型六小虎，要撞上版权墙了

AI大模型时代，人才的需求已经变了

豆包说要「普惠」，于是大模型处理图片按「厘」计价了

视频生成大模型赛道，只是看上去拥挤

大模型公司们“犹抱琵琶式”的融资和幸存者游戏

AI大模型时代下的天融信：安全领域的智能先锋

2024，大模型杀进“决赛圈”

当做应用成为共识，大模型公司拿出了更多弹药

一手实测豆包新发布的视觉理解大模型，他们真的卷起飞了。

智象多模态生成大模型3.0发布离幻觉更远与离落地更近

你还说这是AI？我们体验了一波生成亚洲人最好看的文生图大模型

周鸿祎：AGI发展遇瓶颈智能体和专业大模型将扛大旗

AI新风向：思必驰“分布式大模型智能体系统”赋能产业未来

OpenAI科学家盛赞中国大模型：算法非常强，算力用到极致！

AI日报：百川智能金融大模型发布；ChatGPT新增跨对话记忆功能；DeepSeek大模型一开发者将加盟小米；OpenAI最强推理模型o3

业内首个！京东发布“AI京医”大模型：准确率达99.5%

首页

IT业界

热点视频

站长资讯

好物榜

更多分类

更多主题

思维链被推翻！纽约大学新研究：大模型推理步骤或可省略

推荐关键词

24小时热搜

大家正在看

大模型不再有信仰

我们正在大模型产品面前“裸奔”么

大模型，在内卷中寻找出口

大模型落地战，挺进大消费

大模型六小虎，要撞上版权墙了

AI大模型时代，人才的需求已经变了

豆包说要「普惠」，于是大模型处理图片按「厘」计价了

视频生成大模型赛道，只是看上去拥挤

大模型公司们“犹抱琵琶式”的融资和幸存者游戏

AI大模型时代下的天融信：安全领域的智能先锋

2024，大模型杀进“决赛圈”

当做应用成为共识，大模型公司拿出了更多弹药

一手实测豆包新发布的视觉理解大模型，他们真的卷起飞了。

智象多模态生成大模型3.0发布 离幻觉更远与离落地更近

你还说这是AI？我们体验了一波生成亚洲人最好看的文生图大模型

周鸿祎：AGI发展遇瓶颈 智能体和专业大模型将扛大旗

AI新风向：思必驰“分布式大模型智能体系统”赋能产业未来

OpenAI科学家盛赞中国大模型：算法非常强，算力用到极致！

AI日报：百川智能金融大模型发布；ChatGPT新增跨对话记忆功能；DeepSeek大模型一开发者将加盟小米；OpenAI最强推理模型o3

业内首个！京东发布“AI京医”大模型：准确率达99.5%

智象多模态生成大模型3.0发布离幻觉更远与离落地更近

周鸿祎：AGI发展遇瓶颈智能体和专业大模型将扛大旗