Yandex 推出 YaFSDP,优化大型语言模型训练
总部位于莫斯科的科技巨头 Yandex 于 2024 年 6 月 11 日宣布开源 YaFSDP,一种用于提升大型语言模型 (LLM) 训练功效的方法。与现有的 FSDP 方法相比,YaFSDP 在 GPU 通信效率和 LLM 训练期间内存使用率方面均有显着改进,可加快训练速度高达 26%,具体取决于模型架构和参数数量。通过部署 YaFSDP,LLM 训练时间可缩短多达 20%,同时减少对 GPU 资源的需求。
Yandex 致力于为全球人工智能社区做出贡献,YaFSDP 的开源发布是其承诺的一部分。高级开发专家 Mikhail Khruschev 表示,YaFSDP 的开发旨在扩展其通用性,并与全球机器学习 (ML) 共同体分享,以促进更多开源工具的开发和提高效率。
LLM 训练是一项耗时且需要大量资源的任务。使用 YaFSDP 可以大幅降低训练成本。例如,在涉及具有 700 亿个参数的模型的预训练场景中,YaFSDP 可以节省大约 150 个 GPU 资源,每月节省的成本在 50 万至 150 万美元之间(取决于虚拟 GPU 供应商或平台)。
YaFSDP 通过改进 GPU 通信效率、确保训练过程中仅使用必要的处理器内存以及保持 GPU 交互的连续性来提升训练性能。在 LLM 训练中最需要通信的阶段(如预训练、微调和对齐),YaFSDP 的表现优于 FSDP 方法。在 Llama 2 和 Llama 3 模型上的应用表明,YaFSDP 分别将训练速度提高了 21% 和 26%。
YaFSDP 在包含 130 亿至 700 亿个参数的模型上表现出色,尤其是在 300 亿至 700 亿个参数的范围内效果显著。目前,YaFSDP 非常适合基于广泛使用的 LLaMA 架构的开源模型。
YaFSDP 是 Yandex 一系列开源工具中的一个,该公司此前分享了其他在机器学习社区中颇受欢迎的工具,包括 CatBoost(一种高性能基于决策树的梯度提升库)、YTsaurus(分布式存储和处理大数据平台)、AQLM(由 Yandex Research、HSE 大学、IST Austria 和 NeuralMagic 联合开发的高级量化算法,用于大幅压缩大型语言模型),以及 Petals(由 Yandex Research、HSE 大学、华盛顿大学、Hugging Face、巴黎-萨克雷高等经济学院和 Yandex 数据分析学院联合开发的简化 LLM 训练和微调过程的库)。