站长之家用户 - 传媒 2025-12-19 11:59

昇思人工智能框架峰会 | MindSpore Lite混合精度推理,实现内存节省30%,助力鸿蒙翻译模型轻量化部署

据悉,昇思MindSpore开源社区将于2025年12月25日在杭州举办昇思人工智能框架峰会。本次大会,昇思MindSpore Lite团队讲会在开发者动手实践workshop环节分享基于MindSpore Lite的端侧AI推理优化的技术实践,同时也设立开发者分组操作,欢迎来现场体验交流。本文探讨MindSpore Lite的CPU混合精度推理特性在鸿蒙翻译模型高性能推理部署。

在语言翻译算法模型中,通常需依托Transformer算法模型完成文本特征的提取与转换。针对Transformer推理内存较高、难以满足端侧多语种翻译应用部署的内存要求,基于MindSpore Lite的CPU混合精度推理方案,综合运用混合精度子图调度、IO免拷贝等关键技术,成功将鸿蒙系统内置翻译模型的推理内存优化至66MB,相较于原始100MB以上的推理内存显著降低,支撑模型在鸿蒙6.0上线部署。

背景与挑战

MindSpore Lite作为高性能推理框架,在当前AI产业化落地的背景下,为开源模型的商用部署提供了坚实的技术保障。

在NLU(Natural Language Understanding,自然语言理解)场景中,特征提取通常依赖注意力机制实现。然而,注意力模块包含大量的大颗粒矩阵乘算子,并且涉及到Cache缓存,致使推理过程内存占用较高,对于鸿蒙系统内置的基础翻译模型,内存超限成为制约特性上线的关键瓶颈。

• 内存占用:翻译模型,使用整网Float16CPU推理,精度误差不可接受,整网Float32精度正常,但在fp32下推理占用较大,需要借助混合精度特性,在降低cpu内存占用的同时减少其带来的精度损失。

为突破上述内存瓶颈,MindSpore Lite提供了基于CPU混合精度的推理模式,并融合IO免拷贝、图算融合等关键技术,形成系统性解决方案,有力保障了业务的商用化落地。

MindSpore Lite推理技术方案

1、方案介绍

MindSpore Lite推理框架提供了功能完备的转换工具及简洁易用的推理API接口。

模型转换阶段,MindSpore Lite转换工具可将MindSpore训练框架导出的MindIR模型或第三方框架导出的ONNX模型转换为MindSpore Lite格式的ms模型。离线转换过程中,工具首先将用户模型解析为标准MindSpore Lite IR格式,并在此基础上执行算子融合、子图切分、量化压缩等系列优化操作。同时,MindSpore Lite依据目标部署硬件特性,将优化后的IR对接至相应硬件后端,最终导出适用于MindSpore Lite推理部署的ms模型文件。

在线推理阶段,MindSpore Lite提供简明高效的API调用接口,通过加载转换后的ms模型,基于CPU后端注册的170+高性能算子实现,调度选取最优执行计划,最终获取推理结果。推理过程中,框架支持子图切分、IO免拷贝等关键技术,有效提升模型推理性能并保障业务部署的稳定性与功能性。

2、关键技术

CPU混合精度推理:

MindSpore Lite提供CPU混合精度推理机制,可针对单个模型内的不同算子,灵活配置Float32、Float16等不同精度计算策略,通过仅对精度敏感的算子保持高精度计算,可完成性能和精度的精细调优。以语种翻译模型为例,结合算法测试集,默认选用Float16推理,针对LayerNorm,SoftMax等数值敏感算子采用Float32推理,较整网Float32性能提升20%,内存降低30%,且精度误差输入/输出免拷贝:

调用MindSpore Lite执行推理前需要设置输入数据,推理结束后也需要读取输出结果,当输入规模变大,如翻译模型输入KVCache,会引入较大的内存拷贝时延,且存在额外内存占用。MindSpore Lite利用CPU内存共享机制,实现了模型输入/输出数据免拷贝功能,可有效降低推理时延和内存占用。以翻译模型CPU推理为例,针对多达40个输入节点,开启免拷贝功能,可提升10%的推理性能,且内存优化10%。

性能测试与验证

可以通过MindSpore Lite官网发布包中的converter_lite转换工具,将开源导出的onnx模型转换成ms的模型,然后通过MindSpore Lite官网发布包中的benchmark工具验证模型的功能与性能数据,详细的验证方法可以参考MindSpore Lite官网教程:https://www.mindspore.cn/lite/docs/zh-CN/r2.7.1/tools/benchmark_tool.html

性能测试与验证

• 针对翻译算法模型在端侧CPU硬件上的部署推理,MindSpore Lite会持续进行性能优化,降低部署内存,提升推理性能,提供更加易用的接口能力。

• 与开源社区共同适配更多更新的开源算法模型,提升推理框架的泛化性能力,与模型推理性能。

本次在杭州举办的昇思人工智能框架峰会,将会邀请思想领袖、专家学者、企业领军人物及明星开发者等产学研用代表,共探技术发展趋势、分享创新成果与实践经验。欢迎各界精英共赴前沿之约,携手打造开放、协同、可持续的人工智能框架新生态!

相关话题

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,相关信息仅供参考。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

推荐关键词

24小时热搜

查看更多内容

大家正在看