快科技10月20日快讯:据报道,NVIDIA的研究取得突破,有望革新人工智能领域。其团队开发出一种新型神经网络架构——归一化Transformer(nGPT)。
nGPT架构在超球面上进行表示学习,大幅提升语言模型(LLM)的训练效率,最高可达20倍,且保持模型精度。
nGPT架构的核心是对所有向量,包括嵌入、多层感知机(MLP)、注意力矩阵和隐藏状态,进行归一化处理,使它们成为单位范数。
这种归一化处理使输入的词标记在超球面表面上移动,每一层模型通过位移对最终输出预测做出贡献。
实验结果表明,与标准Transformer模型相比,nGPT训练所需的步骤减少了4-20倍,具体加速效果取决于序列长度。
例如,在1k上下文下训练速度提升4倍,4k上下文提升10倍,8k上下文提升20倍。
研究人员表示,nGPT的优化路径始于超球面上的点,通过位移贡献最终输出预测,位移量由MLP和注意力模块定义。
这种方法不仅提升了训练速度,还增强了模型的稳定性。