DeepSeek团队发布最新论文,推出了Native Sparse Attention (NSA)机制。NSA是一种创新的稀疏注意力机制,旨在与现代硬件高度协同,支持本机训练,大幅提升长上下文训练和推理速度。
NSA通过优化硬件特性进行设计,有效提升推理效率,降低预训练成本,同时保持模型性能不减。
官方测试表明,NSA在通用基准、长上下文任务和指令推理中表现优异,与全注意力模型相比毫不逊色。
DeepSeek设计了一种分层稀疏策略,将注意力划分为压缩、选择和滑动窗口三个分支,以同时捕捉全局上下文和局部细微信息。
NSA不仅实现了稀疏注意力的算法建模,还通过硬件对齐优化了内存访问和计算调度,大幅减少了处理长文本时的计算延迟和资源消耗。
论文地址:https://arxiv.org/pdf/2502.11089v1