对于人工智能(AI)而言,任何单一硬件或计算组件都无法成为适合各类工作负载的万 能解决方案。AI贯穿从云端到边缘侧的整个现代计算领域,为了满足不同的AI用例和需求,一个可以灵活使用CPU、GPU和NPU等不同计算引擎的异构计算平台必不可少。
依托于Arm CPU的性能、能效、普及性、易于编程性和灵活性,从小型的嵌入式设备到大型的数据中心,Arm CPU已经为各种平台上的AI加速奠定了基础。
就灵活性而言,这对生态系统大有裨益的三个主要原因是,首先,Arm CPU可以处理广泛的AI推理用例,其中许多用例通常用于数十亿台设备,例如当今的智能手机、云和数据中心。不仅如此,除了推理之外,CPU还经常用于技术栈中的数据预处理和编排等其他任务。其次,开发者能够在更多种类的数据格式中运行更广泛的软件,而无需构建多个版本的代码。最后,CPU的灵活性使之成为加速AI工作负载的理想工具。
提供多样性和选择,助力行业灵活部署AI计算
除了CPU产品组合外,Arm计算平台还包括GPU和NPU等AI加速器技术,许多市场都在将这些技术与CPU进行集成。
在移动端领域,Arm终端计算子系统(CSS)包含Armv9.2 CPU集群,并与Arm Immortalis-G925 GPU集成,可为各种AI用例提供加速功能,包括图像分割、对象检测、自然语言处理和语音转文本等用例。在物联网(IoT)方面,Arm Ethos-U85 NPU可与需要加速AI性能的基于Arm Cortex-A的系统一起设计,例如工厂自动化等场景。
此外,除了Arm自己的加速器技术外,合作伙伴借助Arm的CPU灵活定制具有差异化的芯片解决方案。例如,NVIDIA用于AI基础设施的Grace Blackwell和Grace Hopper超 级芯片均采用了Arm CPU和NVIDIA的AI加速器技术,从而显著提升AI性能。
NVIDIA Grace Blackwell超 级芯片将NVIDIA的Blackwell GPU架构与基于Arm Neoverse的Grace CPU相结合。Arm独特的产品组合使NVIDIA能够进行系统级设计优化,与NVIDIA H100 GPU相比,其能耗降低了25倍,单个GPU性能提高了30倍。具体来说,得益于Arm Neoverse平台的灵活性,NVIDIA能够实现自有的高带宽NVLink互连技术,并提升CPU、GPU和内存之间的数据带宽和延迟。
Arm致力于通过Arm全面设计生态项目,为整个生态系统注入AI加速的机遇。通过该生态项目,开发者可以更快访问Arm CSS技术,赋能软硬件技术进步,以此驱动AI和芯片创新,并加快开发和部署AI优化的芯片解决方案。
Arm架构满足AI所需的独特灵活性
Arm CPU设计所具有灵活性关键在于Arm领先的架构。它提供了一个可以与AI加速器技术紧密集成的基础平台,并支持从128位到2,048位的各种向量长度,可以在许多不同的数据点上轻松执行多个神经网络。
Arm架构的灵活性为整个芯片生态系统提供了多样化的定制机会,Arm一直致力于帮助合作伙伴更快地构建自己的差异化芯片解决方案。这种独特的灵活性也使Arm能够不断进行架构创新,定期推出关键指令和功能来加速AI计算,进而惠及整个生态系统,其中包括领先的芯片合作伙伴,以及在Arm计算平台上构建应用的2,000多万软件开发者等。
这一切始于Armv7架构,该架构引入了高 级单指令多数据(SIMD)扩展,例如Neon技术,这是Arm首 次涉足机器学习(ML)工作负载。在过去几年中,该架构不断增强,Armv8中增加了向量点积和矩阵乘法特性,之后在Armv9中又引入了Arm SVE2和新的Arm SME技术,为广泛的生成式AI工作负载和用例提高了计算性能并降低了功耗。
与AI加速器技术无缝集成
Arm是AI时代的计算平台,推动了持续的架构创新,以满足速度更快、互动性更好和沉浸感更强的AI应用的发展。Arm CPU作为灵活处理AI工作负载的异构计算方法中的一部分,可以无缝增强和集成GPU和NPU等AI加速器技术。
Arm CPU是处理众多AI推理工作负载的实用之选,凭借出色的灵活性,它能够与加速器技术无缝集成,打造更强大、更高性能的AI功能,准确满足特定用例和计算需求。对于Arm的技术合作伙伴而言,出色的灵活性有助于实现丰富的定制选择,使他们能够为AI工作负载构建完整的芯片解决方案。