LLM-Shearing大模型剪枝法：用5%的成本拿下SOTA，比从头开始预训练更划算

要点:
1. 陈丹琦团队开发了LLM-Shearing大模型剪枝法，可以将大型预训练模型剪枝至低成本，但高性能水平。
2. 剪枝方法将模型剪枝看作一种约束优化问题，同时学习剪枝掩码矩阵以最大化性能为目标。
3. 这种方法提供了一种有效的方式，可用于将剪枝后的模型继续预训练，最终超越从头开始预训练的模型。

站长之家（ChinaZ.com）10月12日消息:陈丹琦团队近期发布了一项重要的研究成果，他们开发了一种名为LLM-Shearing的大模型剪枝法。这项技术允许将庞大的预训练模型剪枝至仅需3%的计算量和5%的成本，同时保持着SOTA（State-of-the-Art）水平的性能。

这一成果的基础是以羊驼LLaMA2.7B为起点，通过有针对性的结构化剪枝，得到了1.3B和3B规模的Sheared-LLama模型。在各种下游任务评估中，这些剪枝后的模型表现出色，超越了之前的同等规模模型。

论文地址:

https://arxiv.org/abs/2310.06694

Hugging Face:

https://huggingface.co/princeton-nlp

项目主页:

https://xiamengzhou.github.io/sheared-llama/

该研究的首席作者夏梦舟指出，与从头开始预训练相比，这种剪枝方法在成本和性能方面更为划算。

研究团队还在论文中提供了剪枝后模型的示例输出，表明即使规模只有1.3B和2.7B，这些模型仍然能够生成连贯且内容丰富的回复。此外，相同规模下的不同版本模型在某些任务上还表现出更清晰的结构。

这一研究的重要性在于，虽然目前仅使用Llama2.7B模型进行了剪枝实验，但这种方法可扩展到其他模型架构和规模。此外，剪枝后的模型还可以进一步预训练，从而在一定程度上恢复因剪枝而导致的性能损失。

研究团队还解决了一个关键问题，即剪枝可能导致模型在不同数据集上性能下降的问题。他们提出了动态批量加载（Dynamic Batch Loading）的方法，通过根据模型在不同领域数据上的损失下降速率，动态调整每个领域的数据比例，从而提高数据使用效率。

实验证明，虽然剪枝模型最初表现较差，但通过继续预训练，最终可以超越与之规模相同但从头开始预训练的模型。

总而言之，这项研究的关键在于提供了一种高效的方式，可以将庞大的预训练模型剪枝至较低成本，同时保持高性能。这有望在大规模深度学习模型的研究和应用中产生广泛的影响。

思必驰智能语音携手茅台，打造“国酒级”AI大模型智能会议方案

2024-12-111.8万阅读

首页

IT业界

热点视频

站长资讯

好物榜

更多分类

更多主题

LLM-Shearing大模型剪枝法：用5%的成本拿下SOTA，比从头开始预训练更划算

推荐关键词

24小时热搜

大家正在看

大模型拿单江湖

大模型，在内卷中寻找出口

AI大模型时代，人才的需求已经变了

豆包说要「普惠」，于是大模型处理图片按「厘」计价了

视频生成大模型赛道，只是看上去拥挤

2024，大模型杀进“决赛圈”

当做应用成为共识，大模型公司拿出了更多弹药

50多款AI眼镜来了，大模型找到了应用救星？

AI日报：阶跃星辰内测视频大模型Step-Video；即梦AI图片2.1模型支持生成文字；腾讯发布混元视频生成大模型

大模型混战这一年：进化之赛、效率之争、落地之战

一手实测豆包新发布的视觉理解大模型，他们真的卷起飞了。

大模型创业“生死局”：融资困难、造血乏力、卖身离场

OpenAI发布强化微调API，能深度定制超复杂大模型了

周鸿祎：AGI发展遇瓶颈智能体和专业大模型将扛大旗

视觉中国与生数科技共拓视觉产业大模型应用

重磅！OpenAI发布满血o1、无限使用，最强大模型来了

谷歌史上最强大模型！Gemini 2.0正式发布

思必驰智能语音携手茅台，打造“国酒级”AI大模型智能会议方案

AI日报：百川智能金融大模型发布；ChatGPT新增跨对话记忆功能；DeepSeek大模型一开发者将加盟小米；OpenAI最强推理模型o3

灰豚AI数字人重磅突破，国内最强数字人AI口播软件大模型来袭

首页

IT业界

热点视频

站长资讯

好物榜

更多分类

更多主题

LLM-Shearing大模型剪枝法：用5%的成本拿下SOTA，比从头开始预训练更划算

推荐关键词

24小时热搜

大家正在看

大模型拿单江湖

大模型，在内卷中寻找出口

AI大模型时代，人才的需求已经变了

豆包说要「普惠」，于是大模型处理图片按「厘」计价了

视频生成大模型赛道，只是看上去拥挤

2024，大模型杀进“决赛圈”

当做应用成为共识，大模型公司拿出了更多弹药

50多款AI眼镜来了，大模型找到了应用救星？

AI日报：阶跃星辰内测视频大模型Step-Video；即梦AI图片2.1模型支持生成文字；腾讯发布混元视频生成大模型

大模型混战这一年： 进化之赛、效率之争、落地之战

一手实测豆包新发布的视觉理解大模型，他们真的卷起飞了。

大模型创业“生死局”：融资困难、造血乏力、卖身离场

OpenAI发布强化微调API，能深度定制超复杂大模型了

周鸿祎：AGI发展遇瓶颈 智能体和专业大模型将扛大旗

视觉中国与生数科技共拓视觉产业大模型应用

重磅！OpenAI发布满血o1、无限使用，最强大模型来了

谷歌史上最强大模型！Gemini 2.0正式发布

思必驰智能语音携手茅台，打造“国酒级”AI大模型智能会议方案

AI日报：百川智能金融大模型发布；ChatGPT新增跨对话记忆功能；DeepSeek大模型一开发者将加盟小米；OpenAI最强推理模型o3

灰豚AI数字人重磅突破，国内最强数字人AI口播软件大模型来袭

大模型混战这一年：进化之赛、效率之争、落地之战

周鸿祎：AGI发展遇瓶颈智能体和专业大模型将扛大旗