生成式AI变革,催生底层硬件与软件新需求
生成式人工智能(AI)的蓬勃发展,对底层硬件设计和软件生态开发提出了更高的要求。尤其是底层硬件和算力,必须与时俱进,为未来发展做好准备。
高通《终端侧生成式AI白皮书》解读
近日,高通发布《通过NPU和异构计算开启终端侧生成式AI》白皮书,详细阐述了终端侧生成式AI的发展趋势,以及高通骁龙处理器的多模块异构计算引擎,特别是NPU的设计和优势。
高通异构计算引擎:协同共进
高通采用异构计算引擎策略,由Kryo CPU、Adreno GPU、Hexagon NPU、传感器中枢四大核心模块组成,相互协作。
- CPU:擅长顺序控制和即时性,适合延时要求高的场景。
- GPU:擅长高精度格式的并行处理,算力强劲,可运行大规模模型。
- NPU:擅长标量、向量和张量数学运算,能效高,可实现持续稳定的高峰值性能。
- 传感器中枢:以极低功耗运行,获取端侧情境信息,增强生成式AI体验。
Hexagon NPU:专为AI推理而生
NPU(神经网络处理器)是为低功耗加速AI推理而打造的硬件模块,其架构随着AI算法、模型和用例的发展而不断演进。
高通Hexagon NPU专注于以低功耗实现持续稳定的高性能AI推理,其优势在于:
- 系统级解决方案:满足端侧生成式AI的独特需求。
- 定制设计:针对AI工作负载进行优化,解决瓶颈问题。
- 快速创新:与AI行业发展方向保持一致,不断演进NPU架构。
Hexagon NPU演进历程
高通从2007年开始研发Hexagon NPU,经历了多次重大升级:
- 2015年:首个高通AI引擎,支持成像、音频和传感器运算。
- 2018年:增加Hexagon张量加速器,提升AI性能。
- 2020年:Hexagon NPU全面升级,成为里程碑转折,在骁龙888及后续三代骁龙8中持续迭代。
- 2023年:支持LLM和LVM,并支持Transformer,可更好地处理Transformer模型。
第三代骁龙8上的Hexagon NPU
第三代骁龙8集成的Hexagon NPU性能强大,可运行高达100亿参数的模型,在首个token生成速度和每秒生成token速率方面均处于业界领先水平。
此外,Hexagon NPU还引入了微切片推理技术,提升LLM处理能力,可快速处理百川和Llama2等大型模型。
Hexagon NPU性能表现
在实际性能表现中,第三代骁龙8与竞品的对比显示出明显的优势:
- 鲁大师AIMark V4.3测试:总分超出竞品5.7倍至7.9倍。
- 安兔兔测试:总分是竞品6.3倍。
- MLCommon MLPerf推理测试:图像分类、语言理解等子项均保持领先。
在PC端,骁龙X Elite与其他x86架构竞品的对比中,骁龙X Elite在Windows系统下的UL Procyon AI推理测试中大幅领先,总分超出竞品3.4倍至8.6倍。
多模态生成式AI模型
在MWC 2024大会上,高通展示了在终端上运行的多模态生成式AI模型,例如:
- LLaVA:基于图像输入,回答用户提出的问题。
- LMM:接受文本和音频输入,进行多轮对话。
高通AI软件栈
除硬件能力外,高通还打造了AI软件栈,支持所有主流AI框架、运行时、编译器和数学库,并提供AI Studio,为开发者提供开发所需的各种工具,提高模型效率。
生成式AI的未来前景
高通认为,AI终端市场的发展才刚刚开始,将对各行各业产生深远影响。生成式AI将让所有人都能充分利用其能力,变革工作、娱乐和生活,就像智能手机的出现让数十亿人能够连接网络一样。