站长之家 - 业界 2025-01-24 21:31

华为提出全新压缩算法:节省70%内存占用

华为AI算法团队在人工智能领域取得重大进展,成功开发出创新的大模型KV Cache压缩算法“RazorAttention”。

该算法表现出色,可节省高达70%的大模型推理内存占用,为AI大模型的高效运行奠定基础。

RazorAttention算法已发表论文,并被国际顶级深度学习会议ICLR 2025收录。华为指出,该算法是业界首次基于Attention可解释性开发的离线静态KV Cache压缩算法。

通过检索头机制,RazorAttention算法确保上下文中的关键信息不丢失,实现了高精度(误差低于1%)和高效压缩。其压缩率可达70%,显著降低了AI大模型推理成本。

目前,RazorAttention算法已集成至昇腾MindIE/MindStudio产品中,支持主流8K~1M长序列KV Cache压缩,并可在32K以上场景中提升20%的吞吐量。

相关话题

推荐关键词

24小时热搜

查看更多内容

大家正在看