站长之家 - 业界 2025-02-15 14:07

技术奇迹!清华突破大模型算力难题 RTX 4090单枪匹马就能跑满血版DeepSeek

突破大模型算力瓶颈,清华团队再创里程碑

清华大学KVCache.AI团队携手趋境科技,为其开源项目KTransformers带来重磅更新,打破大模型推理算力障碍。

此次更新支持在24GB显存的设备上本地运行DeepSeek-R1、V3的完整版(671B)。其背后蕴藏着异构计算策略的创新突破:

  • 稀疏性利用:采用MoE架构,只激活部分专家模块。非共享稀疏矩阵卸载至CPU内存,结合高速算子处理,显存占用减至24GB。
  • 量化与算子优化:采用4bit量化技术和Marlin GPU算子,效率提升3.87倍。CPU端采用llamafile实现多线程并行,预处理速度高达286 tokens/s。
  • CUDA Graph加速:减少CPU/GPU通信开销,单次解码只需一次完整CUDA Graph调用,生成速度达14 tokens/s。

这一突破极具意义:

  • 降低成本:相比传统8卡A100服务器,单卡RTX 4090方案将整机成本降至约2万元,功耗仅需80W。
  • 赋能中小团队:低成本、低功耗方案为中小团队和个人开发者打开了大模型研究的大门。

清华团队在RTX 4090上运行DeepSeek-R1满血版的案例,不仅彰显了技术奇迹,更凸显了开源精神和硬件潜力的完美结合。它证明,在人工智能飞速发展的时代,创新往往源于对所谓“不可能”的挑战。

推荐关键词

24小时热搜

查看更多内容

大家正在看

拼多多AI大模型暗战