高性能计算GPU断供事件相关情况与寒武纪-韭研公社

登录注册

高性能计算GPU断供事件相关情况与寒武纪

增金拜银

春风吹又生的老韭菜

2022-09-02 15:04:41

断供事件回顾：

美国芯片厂商AMD、Nvidia相继收到美国总部通知，对中国区客户断供高端GPU芯片。

AMD通知内容为：1）暂停对中国区所有数据中心GPU卡MI 100和MI 200发货；2）统计中国区MI 100已发货量；3）统计中国区MI 200已发货客户清单和发货明细。

Nvidia通知内容为：1）暂停对中国区所有客户所有代理商的数据中心GPU卡A100和H100的发货，其他GPU卡不受影响；2）各服务器OEM厂商的下游库存A100 GPU卡，目前可以对各自的行业客户继续交付，Nvidia中国区目前没有对OEM厂商发任何书面通知。

断供事件解析：

1、这次美国断供的用于高性能计算（主要包括AI模型训练及科学计算）的GPU，是集成到大型服务器甚至是超算中心里的GPU，而非普通意义上的显卡（用于图形描绘及图像显示）。美国的目的是对最先进制程、最强算力芯片、最新高端芯片等对中国进行限制。美国担忧的是，中国将这些高性能芯片：1）用于提升军事实力；2）用于人工智能技术的快速发展和应用；3）用于其他尖端技术的研究。

2、目前全球范围内，GPU市场都是以NV和AMD的产品为主，据媒体的数据，2021年Q4，NV的市占率约83%，AMD的市占率约17%，基本由这两家瓜分完毕！

3、中国的智能终端普及率及大数据的积累在全球领先，为中国人工智能技术的大范围应用奠定了良好的基础。中国的AI公司及互联网巨头都在如火如荼地进行研发，但就AI训练及推理芯片方面，Nvidia的GPU仍处于绝对主导地位。

4、GPU已经存在了几十年，它并不是为AI计算而诞生的，只是由于它的并行计算能力强，而可以满足AI计算的需求。同时，它的功耗是非常高的，成本也更高。

突发事件对国内的意义：

1、寒武纪做的不是GPU，是专门为AI计算而设计的芯片，它属于ASIC芯片，ASIC芯片在功耗和成本上具有先天优势。同时，由于寒武纪自己设计的架构保持了相当大的通用性并有自研的指令集和算子库来支持各种算法的实现，故寒武纪的芯片有很强的通用性（这里指在AI计算领域的通用性）。所以，寒武纪的芯片，并不是普通人理解的那样有了新的算法它就不能用了。

2、寒武纪是最有可能冲出NV和AMD围剿的中国公司。目前，寒武纪的芯片及加速卡产品系列已然完备，配套基础软件也已完备，在AI加速计算这一领域，具备了对NV和AMD产品进行彻底替代的条件。

目前，国内也有其他一些公司在研发云端AI专用芯片，但进度都明显落后于寒武纪，真正实现量产、批量出货的只有寒武纪。根据寒武纪发布的2022年半年报来看，上半年云端芯片收入1.3亿元，在疫情影响下，实现同比大幅增长，得到了互联网、AI、安防等领域重要客户的认可。

同时，国内也有一些研发GPU的初创公司，融资也是如火如荼，但截至目前，仍然没有一家拿的出可以量产的产品出来。

3、至于生态建设，这是一个宏大的命题，确实难度很大。从技术上来讲，寒武纪的软件栈支持GUDA程序的重新编译，只需要花费很少的精力即可完成代码的迁移，来适配寒武纪的芯片。但即使只需要这么一点点投入，也有很多厂家犹豫。这里面，更大的难度还是在于如何改变人的固有认识、如何改变对于成熟事物的依赖性以及提高对新事物的接受度。

4、冰冻三尺非一日之寒。NV和AMD都是存在了几十年的国际巨头，而寒武纪作为成立6年多的初创公司，对标的就是国际巨头，这条路注定道阻且长。

5、但现在，突发事件造成了重大转变，曙光已经来临。原来，摆在寒武纪面前的难以翻越的大山就是NV，现在美国政府帮忙把这座大山给移走了，寒武纪将像一匹挣脱缰绳、冲出马厩的千里马，在广阔天地间恣意驰骋。

寒武纪的现状：

寒武纪团队的执行力非常强，每年都发布新产品进行迭代（5年8款），研发团队接近1000人。

目前，寒武纪的产品从IP到芯片到加速卡到智能计算终端一体机，已经形成完整的系列，另外还有全套自研的、完整的基础软件平台（包括指令集、编译器、开发语言、开发环境、算子库及配套工具）。

l 边缘端芯片：MLU220（加速卡：M.2）；

l 云端推理芯片：MLU100、MLU270（加速卡S4、F4）；

l 云端训练+推理一体化芯片：MLU290（加速卡M5）、MLU370（加速卡S4、X4、X8）；

l 高性能计算终端一体机：玄思1000（搭载4颗MLU290芯片）；

l 即将推出的新产品：MLU390、两颗车载智能芯片（由子公司行歌研发，一颗针对L4级自动驾驶且预计峰值性能将达到200TOPS、另一颗针对L2-L3辅助驾驶且预计2022年Q4推出）、玄思2000等。

寒武纪重点芯片介绍：

1、思元290芯片（2020年底发布）

思元290芯片是寒武纪首颗训练芯片，采用创新性的MLUv02扩展架构，使用台积电7nm先进制程工艺制造，在一颗芯片上集成了高达460亿的晶体管。芯片具备多项关键性技术创新， MLU-Link™多芯互联技术，提供高带宽多链接的互连解决方案；HBM2内存提供AI训练中所需的高内存带宽；vMLU帮助客户实现云端虚拟化及容器级的资源隔离。多种全新技术帮助AI计算应对性能、效率、扩展性、可靠性等多样化的挑战。

玄思1000（2020年底发布）

玄思1000训练整机在2U机箱内集成了4颗思元290芯片，NVMe高速本地闪存、InfiniBand网络，提供对外连接的高速MLU-Link™接口，打破了传统数据中心横向扩展架构，将AIDC构建为节点、POD乃至超大规模混合扩展架构(Hybrid Scale-out)，实现AI算力计算中心级纵向扩展，满足高性能、高扩展性、灵活性、高鲁棒性的要求。

2、思元370芯片（2021年11月发布）

基于7nm制程工艺，思元370是寒武纪首款采用chiplet（芯粒）技术的AI芯片，集成了390亿个晶体管，最大算力高达256TOPS(INT8)，是寒武纪第二代产品思元270算力的2倍。凭借寒武纪最新智能芯片架构MLUarch03，思元370实测性能表现更为优秀。

思元370也是国内第一款公开发布支持LPDDR5内存的云端AI芯片，内存带宽是上一代产品的3倍，访存能效达GDDR6的1.5倍。搭载MLU-Link™多芯互联技术，在分布式训练或推理任务中为多颗思元370芯片提供高效协同能力。

全新升级的Cambricon NeuWare软件栈，新增推理加速引擎MagicMind，实现训推一体，大幅提升了开发部署的效率，降低用户的学习成本、开发成本和运营成本。

思元370采用chiplet（芯粒）技术，在一颗芯片中封装2颗AI计算芯粒（MLU-Die），每一个MLU-Die具备独立的AI计算单元、内存、IO以及MLU-Fabric控制和接口，通过MLU-Fabric保证两个MLU-Die间的高速通讯，可以通过不同MLU-Die组合规格多样化的产品，为用户提供适用不同场景的高性价比AI芯片。

MLU370-X8加速卡（2022年3月发布）

MLU370-X8补全了思元370系列产品线。寒武纪长期秉承“云边端一体、训推一体、软硬件协同”的技术理念。MLU370-X8提供两倍思元370的内存带宽，结合MLUarch03架构和MLU-Link多芯互联技术，将思元370芯片在训练任务的优势充分发挥。MLU370-X8定位中高端，与高端训练产品思元290、玄思1000相互结合，进一步丰富了寒武纪的训练算力交付方式；并与基于思元370芯粒(chiplet)技术构建的MLU370-X4、MLU370-S4智能加速卡协同，形成完整的云端训练、推理产品组合。

Nvidia的主流产品介绍

在高性能计算（AI训练）领域，Nvidia目前主打的产品是A100，H100虽然在今年上半年已发布，但仍处于研发期，尚未量产。A100仍是NV目前性能最强的AI计算加速芯片。

A100（2020年5月发布）

2017年，英伟达发布的V100 用300W的功率提供了 7.8TFLOPS 的推断算力，有210亿个晶体管，而2020年发布的A100的算力直接是前者的20倍。A100 采用台积电（TSMC）7nm工艺，拥有 540 亿个晶体管，它是一块 3D 堆叠芯片，面积高达 826 m^2，GPU 的最大功率达到了 400W。这块 GPU 上搭载了容量 40G 的三星 HBM2 显存，第三代 Tensor Core。同时它的并联效率也有了巨大提升，其采用带宽 600GB/s 的新版 NVLink，几乎达到了10倍 PCIE 互联速度。最终在跑 AI 模型时，如果用 PyTorch 框架，相比上一代 V100 芯片，A100 在 BERT 模型的训练上性能提升 6 倍，BERT 推断时性能提升 7 倍。

第三代DGX （搭载A100，2020年5月发布）

DGX A100 单节点包含 8 块 GPU，可以输出 5PetaFLOPS 的 FP16 算力（比 TFLOPS 又多了三个零，10 的 15 次方），今天就已开卖，售价 19.9 万美元。该价格和上一代 DGX-2 基本持平（DGX-2 首发价 39.9 万美元，但内含 16 块 V100 GPU）。