据悉,昇思MindSpore开源社区将于2025年12月25日在杭州举办昇思人工智能框架峰会。本次大会,昇思MindSpore Lite团队讲会在开发者动手实践workshop环节分享基于MindSpore Lite的端侧AI推理优化的技术实践,同时也设立开发者分组操作,欢迎来现场体验交流。本文探讨MindSpore Lite的CPU混合精度推理特性在鸿蒙翻译模型高性能推理部署。
在语言翻译算法模型中,通常需依托Transformer算法模型完成文本特征的提取与转换。针对Transformer推理内存较高、难以满足端侧多语种翻译应用部署的内存要求,基于MindSpore Lite的CPU混合精度推理方案,综合运用混合精度子图调度、IO免拷贝等关键技术,成功将鸿蒙系统内置翻译模型的推理内存优化至66MB,相较于原始100MB以上的推理内存显著降低,支撑模型在鸿蒙6.0上线部署。
背景与挑战
MindSpore Lite作为高性能推理框架,在当前AI产业化落地的背景下,为开源模型的商用部署提供了坚实的技术保障。
在NLU(Natural Language Understanding,自然语言理解)场景中,特征提取通常依赖注意力机制实现。然而,注意力模块包含大量的大颗粒矩阵乘算子,并且涉及到Cache缓存,致使推理过程内存占用较高,对于鸿蒙系统内置的基础翻译模型,内存超限成为制约特性上线的关键瓶颈。
• 内存占用:翻译模型,使用整网Float16CPU推理,精度误差不可接受,整网Float32精度正常,但在fp32下推理占用较大,需要借助混合精度特性,在降低cpu内存占用的同时减少其带来的精度损失。
为突破上述内存瓶颈,MindSpore Lite提供了基于CPU混合精度的推理模式,并融合IO免拷贝、图算融合等关键技术,形成系统性解决方案,有力保障了业务的商用化落地。
MindSpore Lite推理技术方案
1、方案介绍
MindSpore Lite推理框架提供了功能完备的转换工具及简洁易用的推理API接口。
模型转换阶段,MindSpore Lite转换工具可将MindSpore训练框架导出的MindIR模型或第三方框架导出的ONNX模型转换为MindSpore Lite格式的ms模型。离线转换过程中,工具首先将用户模型解析为标准MindSpore Lite IR格式,并在此基础上执行算子融合、子图切分、量化压缩等系列优化操作。同时,MindSpore Lite依据目标部署硬件特性,将优化后的IR对接至相应硬件后端,最终导出适用于MindSpore Lite推理部署的ms模型文件。
在线推理阶段,MindSpore Lite提供简明高效的API调用接口,通过加载转换后的ms模型,基于CPU后端注册的170+高性能算子实现,调度选取最优执行计划,最终获取推理结果。推理过程中,框架支持子图切分、IO免拷贝等关键技术,有效提升模型推理性能并保障业务部署的稳定性与功能性。
2、关键技术
CPU混合精度推理:
MindSpore Lite提供CPU混合精度推理机制,可针对单个模型内的不同算子,灵活配置Float32、Float16等不同精度计算策略,通过仅对精度敏感的算子保持高精度计算,可完成性能和精度的精细调优。以语种翻译模型为例,结合算法测试集,默认选用Float16推理,针对LayerNorm,SoftMax等数值敏感算子采用Float32推理,较整网Float32性能提升20%,内存降低30%,且精度误差输入/输出免拷贝:
调用MindSpore Lite执行推理前需要设置输入数据,推理结束后也需要读取输出结果,当输入规模变大,如翻译模型输入KVCache,会引入较大的内存拷贝时延,且存在额外内存占用。MindSpore Lite利用CPU内存共享机制,实现了模型输入/输出数据免拷贝功能,可有效降低推理时延和内存占用。以翻译模型CPU推理为例,针对多达40个输入节点,开启免拷贝功能,可提升10%的推理性能,且内存优化10%。
性能测试与验证
可以通过MindSpore Lite官网发布包中的converter_lite转换工具,将开源导出的onnx模型转换成ms的模型,然后通过MindSpore Lite官网发布包中的benchmark工具验证模型的功能与性能数据,详细的验证方法可以参考MindSpore Lite官网教程:https://www.mindspore.cn/lite/docs/zh-CN/r2.7.1/tools/benchmark_tool.html
性能测试与验证
• 针对翻译算法模型在端侧CPU硬件上的部署推理,MindSpore Lite会持续进行性能优化,降低部署内存,提升推理性能,提供更加易用的接口能力。
• 与开源社区共同适配更多更新的开源算法模型,提升推理框架的泛化性能力,与模型推理性能。
本次在杭州举办的昇思人工智能框架峰会,将会邀请思想领袖、专家学者、企业领军人物及明星开发者等产学研用代表,共探技术发展趋势、分享创新成果与实践经验。欢迎各界精英共赴前沿之约,携手打造开放、协同、可持续的人工智能框架新生态!