站长之家 - 业界 2024-10-20 15:32

有望改写AI未来!NVIDIA全新nGPT使训练速度暴增20倍

快科技10月20日快讯:据报道,NVIDIA的研究取得突破,有望革新人工智能领域。其团队开发出一种新型神经网络架构——归一化Transformer(nGPT)。

nGPT架构在超球面上进行表示学习,大幅提升语言模型(LLM)的训练效率,最高可达20倍,且保持模型精度。

nGPT架构的核心是对所有向量,包括嵌入、多层感知机(MLP)、注意力矩阵和隐藏状态,进行归一化处理,使它们成为单位范数。

这种归一化处理使输入的词标记在超球面表面上移动,每一层模型通过位移对最终输出预测做出贡献。

实验结果表明,与标准Transformer模型相比,nGPT训练所需的步骤减少了4-20倍,具体加速效果取决于序列长度。

例如,在1k上下文下训练速度提升4倍,4k上下文提升10倍,8k上下文提升20倍。

研究人员表示,nGPT的优化路径始于超球面上的点,通过位移贡献最终输出预测,位移量由MLP和注意力模块定义。

这种方法不仅提升了训练速度,还增强了模型的稳定性。

推荐关键词

24小时热搜

查看更多内容

大家正在看