华为AI算法团队在人工智能领域取得重大进展,成功开发出创新的大模型KV Cache压缩算法“RazorAttention”。
该算法表现出色,可节省高达70%的大模型推理内存占用,为AI大模型的高效运行奠定基础。
RazorAttention算法已发表论文,并被国际顶级深度学习会议ICLR 2025收录。华为指出,该算法是业界首次基于Attention可解释性开发的离线静态KV Cache压缩算法。
通过检索头机制,RazorAttention算法确保上下文中的关键信息不丢失,实现了高精度(误差低于1%)和高效压缩。其压缩率可达70%,显著降低了AI大模型推理成本。
目前,RazorAttention算法已集成至昇腾MindIE/MindStudio产品中,支持主流8K~1M长序列KV Cache压缩,并可在32K以上场景中提升20%的吞吐量。