站长之家 - 业界 2024-03-07 20:45

性能8.6倍于竞品!高通AI大揭秘:NPU引领四兄弟

生成式AI变革,催生底层硬件与软件新需求

生成式人工智能(AI)的蓬勃发展,对底层硬件设计软件生态开发提出了更高的要求。尤其是底层硬件和算力,必须与时俱进,为未来发展做好准备。

高通《终端侧生成式AI白皮书》解读

近日,高通发布《通过NPU异构计算开启终端侧生成式AI》白皮书,详细阐述了终端侧生成式AI的发展趋势,以及高通骁龙处理器的多模块异构计算引擎,特别是NPU的设计和优势。

高通异构计算引擎:协同共进

高通采用异构计算引擎策略,由Kryo CPU、Adreno GPU、Hexagon NPU、传感器中枢四大核心模块组成,相互协作。

  • CPU:擅长顺序控制和即时性,适合延时要求高的场景。
  • GPU:擅长高精度格式的并行处理,算力强劲,可运行大规模模型。
  • NPU:擅长标量、向量和张量数学运算,能效高,可实现持续稳定的高峰值性能。
  • 传感器中枢:以极低功耗运行,获取端侧情境信息,增强生成式AI体验。

Hexagon NPU:专为AI推理而生

NPU(神经网络处理器)是为低功耗加速AI推理而打造的硬件模块,其架构随着AI算法、模型和用例的发展而不断演进。

高通Hexagon NPU专注于以低功耗实现持续稳定的高性能AI推理,其优势在于:

  • 系统级解决方案:满足端侧生成式AI的独特需求。
  • 定制设计:针对AI工作负载进行优化,解决瓶颈问题。
  • 快速创新:与AI行业发展方向保持一致,不断演进NPU架构。

Hexagon NPU演进历程

高通从2007年开始研发Hexagon NPU,经历了多次重大升级:

  • 2015年:首个高通AI引擎,支持成像、音频和传感器运算。
  • 2018年:增加Hexagon张量加速器,提升AI性能。
  • 2020年:Hexagon NPU全面升级,成为里程碑转折,在骁龙888及后续三代骁龙8中持续迭代。
  • 2023年:支持LLM和LVM,并支持Transformer,可更好地处理Transformer模型。

第三代骁龙8上的Hexagon NPU

第三代骁龙8集成的Hexagon NPU性能强大,可运行高达100亿参数的模型,在首个token生成速度和每秒生成token速率方面均处于业界领先水平。

此外,Hexagon NPU还引入了微切片推理技术,提升LLM处理能力,可快速处理百川和Llama2等大型模型。

Hexagon NPU性能表现

在实际性能表现中,第三代骁龙8与竞品的对比显示出明显的优势:

  • 鲁大师AIMark V4.3测试:总分超出竞品5.7倍至7.9倍。
  • 安兔兔测试:总分是竞品6.3倍。
  • MLCommon MLPerf推理测试:图像分类、语言理解等子项均保持领先。

在PC端,骁龙X Elite与其他x86架构竞品的对比中,骁龙X Elite在Windows系统下的UL Procyon AI推理测试中大幅领先,总分超出竞品3.4倍至8.6倍。

多模态生成式AI模型

在MWC 2024大会上,高通展示了在终端上运行的多模态生成式AI模型,例如:

  • LLaVA:基于图像输入,回答用户提出的问题。
  • LMM:接受文本和音频输入,进行多轮对话。

高通AI软件栈

除硬件能力外,高通还打造了AI软件栈,支持所有主流AI框架、运行时、编译器和数学库,并提供AI Studio,为开发者提供开发所需的各种工具,提高模型效率。

生成式AI的未来前景

高通认为,AI终端市场的发展才刚刚开始,将对各行各业产生深远影响。生成式AI将让所有人都能充分利用其能力,变革工作、娱乐和生活,就像智能手机的出现让数十亿人能够连接网络一样。

推荐关键词

24小时热搜

查看更多内容

大家正在看