推广 - 传媒 2021-11-30T14:43:06 +08:00

寒武纪第四代MLUarch03构架采用chiplet(芯粒)技术

近日,寒武纪正式发布第三代云端AI芯片思元370、基于思元 370 的两款加速卡MLU370-S4 和MLU370-X4、全新升级的Cambricon Neuware软件栈。

回顾今年年初 1 月,寒武纪思元 290 智能芯片及加速卡、玄思 1000 智能加速器在官网低调发布,这是寒武纪今年发布的第二款产品,这在业界实属难得。毕竟芯片行业基本2- 3 年推出一款或一代芯片,外加根据不同客户需要,还要1- 2 年的适配导入周期。

先从三个方面,解读下本次寒武纪 370 的优势所在。

在架构上,思元 370 属于寒武纪第四代自研智能芯片架构,第一代架构MLUarch00 主打智能加速IP核,第二代MLUarch01 主打多核架构,第三代MLUarch02 主打多核共享片内存储,第四代MLUarch03 更是寒武纪首款采用chiplet(芯粒)技术的AI芯片,在国内应该也属于行业首颗chiplet AI芯片。

在应用场景灵活性上,由于思元 370 在一颗芯片中封装 2 颗AI计算芯粒(MLU-Die),每一个MLU-Die都具备独立的AI计算单元、内存、IO以及MLU-Fabric控制和接口,不同MLU-Die可以组合规格多样化的产品,为用户提供适用不同场景的高性价比AI芯片。

在算力上,基于台积电7nm制程工艺、整体集成 390 亿个晶体管的思元 370 最大算力达到256TOPS(INT8),相比上一代思元 270 算力直接翻倍。

此外,思元370,不仅可以作为推理芯片,也可以作为训练芯片使用。这样做的好处不仅是寒武纪自己的产品能够兼顾训练与推理,也方便客户全流程的模型部署、业务落地。

实际上,寒武纪发布的首颗训练芯片思元290,在训练为主的同时也可以进行推理。借助Cambricon Neuware软件栈提供的软件及应用生态,就可以在思元 290 芯片上实现图形图像、语音、NLP、搜索推荐等多种应用的训练和推理。

此次思元 370 发布,Cambricon Neuware进一步整合了训练和推理的全部底层软件栈,包括底层驱动、运行时库、算子库以及工具链等,将MagicMind和深度学习框架Tensorflow、Pytorch深度融合,实现训推一体。依托于训推一体,在寒武纪全系列计算平台上,从云端到边缘端,用户均可以无缝地完成从模型训练到推理部署的全部流程,进行灵活的训练推理业务混布和潮汐式的业务切换,加快了用户端到端业务落地的速度,减少模型训练研发到模型部署之间的繁琐流程,可快速响应业务变化,提升算力利用率,降低运营成本。

在外界看来,一代接着一代是分段的。但对于寒武纪来说,每一代架构之间都是互相勾连、镶嵌、攒接的,虽然每更新一代处理能力提升、效率优化都很大,但代际之间并非替代关系,而是适配不同的市场,从而实现资源的最大化利用。比如思元 370 和思元 290 之间就不是替代的关系,因为前者主要是推理芯片,后者主要是训练芯片,两者是互补的关系。

以每一代的架构为基础,都可以开发出适合不同端的IP、芯片矩阵。而每一款芯片,又都会分成不同组件,比如按照十几个组件设立十几个研发小组,每个小组来做一个组件,最后把组件拼起来形成智能芯片。不同的小组可以根据项目需求,对组件进行多种组合、拼接,并实现不同芯片功能组件上重叠部分的高效复用。

一方面,这就使得云、边、端、车不同芯片拥有很多可以复用的组件与设计,让“云边端车”协同优势成为可能;另一方面,这也使得过去的积累不会因为业务线变化而浪费,哪怕是现在总营收占比已经很小的IP授权业务,对于其他覆盖面更多的业务线,仍然有着生态拓展、技术复用的价值,比如在边缘侧智能芯片设计上复用。

相关话题

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,文章为企业广告宣传内容,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

推荐关键词

24小时热搜

查看更多内容

大家正在看