中国AI芯片：Top10-韭研公社

登录注册

中国AI芯片：Top10

行业

追涨杀跌的散户

2023-04-11 10:20:36

Top 10国产AI芯片分别来自如下厂商：寒武纪、地平线、昆仑芯科技、阿里平头哥、燧原科技、瀚博半导体、天数智芯、鲲云科技、黑芝麻智能和芯擎科技。

寒武纪第三代云端AI芯片思元370

思元370基于7nm工艺，集成390亿个晶体管，并采用chiplet（芯粒）技术，其最大算力高达256TOPS(INT8)，是思元270算力的2倍。基于最新智能芯片架构MLUarch03，集AI训练和推理一体的思元370实测性能表现优秀：以ResNet-50为例，MLU370-S4加速卡（半高半长）实测性能为同尺寸主流GPU的2倍；MLU370-X4加速卡（全高全长）实测性能与同尺寸主流GPU相当，能效则大幅领先。

思元370在一颗芯片中封装2颗AI计算芯粒（MLU-Die），每个MLU-Die具备独立的AI计算单元、内存、I/O以及MLU-Fabric控制和接口。通过MLU-Fabric保证两个MLU-Die间的高速通讯，而不同MLU-Die组合规格可实现多样化的产品，为用户提供适用不同应用场景的高性价比AI芯片。

地平线整车智能计算平台征程 Journey 5

征程5是地平线第三代车规级AI芯片，采用TSMC 16nm FinFET工艺，遵循 ISO 26262 功能安全认证流程开发，并通过ASIL-B 认证。基于最新的双核BPU贝叶斯架构设计，征程5采用八核 Arm Cortex-A55 CPU集群，可提供高达128TOPS等效算力；CV引擎，双核DSP，双核ISP，强力Codec；支持多路4K及全高清视频输入及处理；双核锁步MCU，功能安全等级达 ASIL-B(D)；符合AEC-Q100 Grade 2车规级标准。

该芯片面向高级别自动驾驶及智能座舱应用，其外部接口丰富，可接入超过16路高清视频输入，并支持双通道“即时”图像处理；依托BPU、DSP和CPU资源，不仅适用于先进的图像感知算法加速，还可支持激光雷达、毫米波雷达等多传感器融合；具有PCIe 3.0 高速信号接口，双路千兆实时以太网(TSN) 为多传感同步融合提供硬件级支持(PTP)；支持预测规划以及H.265/JPEG实时编解码。

昆仑芯2

由原百度智能芯片及架构部独立而成的昆仑芯科技推出的第二代云端通用AI芯片采用7nm工艺，基于新一代自研XPU-R架构，其算力为256 TOPS@INT8，128 TFLOPS@ XFP16/FP16，最大功耗为 120W；支持GDDR6高性能显存；高度集成ARM CPU，支持编解码、芯片间互联、安全和虚拟化。

硬件设计上，该芯片是率先采用显存的通用 AI 芯片。软件架构上，昆仑芯2大幅迭代了编译引擎和开发套件，支持 C 和 C++ 编程。此外，昆仑2已与飞腾等多款国产通用处理器、麒麟等多款国产操作系统，以及百度自研的飞桨深度学习框架完成了端到端适配，拥有软硬一体的全栈国产AI能力。该芯片适用云、端、边等多场景，可应用于互联网核心算法、智慧城市、智慧工业等领域，还将赋能高性能计算机集群、生物计算、智能交通、无人驾驶等更广泛空间。

阿里平头哥含光800

平头哥于2019年发布数据中心AI推理芯片含光800，基于12nm工艺，集成170亿晶体管，性能峰值算力达820 TOPS。在业界标准的ResNet-50测试中，推理性能达到78563 IPS，能效比达500 IPS/W。

含光800采用平头哥自研架构，通过软硬件协同设计实现性能突破。平头哥自主研发的人工智能芯片软件开发包，让含光800芯片在开发深度学习应用时可以获得高吞吐量和低延迟的高性能体验。含光800已成功应用在数据中心、边缘服务器等场景。

燧原“邃思”2.5云端AI推理芯片

邃思2.5人工智能推理芯片基于第二代GCU-CARA架构，作为云燧i20高性能推理卡的算力核心，具有55mm × 55mm大芯片尺寸，提供从单精度浮点到INT8整型的全精度AI算力；基于HBM2E存储方案，提供819GB/s存储带宽；基于硬件的功耗监测与优化特性，3.5X能效比提升。该芯片可支持视觉、语音、NLP、搜索与推荐等各类应用的模型推理。

新一代“邃思”AI推理芯片采用12nm工艺，通过架构升级，大大提高了单位面积的晶体管效率，可实现与目前业内7nm GPU相匹敌的计算能力。基于12nm成熟工艺带来的成本优势，使得云燧i20加速卡在相同性能表现下性价比更高。

瀚博半导体AI推理芯片SV100

SV100系列芯片（SV102）的定位是面向云端的通用AI推理芯片，其特点主要在高推理性能（单芯片INT8峰值算力200TOPS，也支持FP16/BF16数据类型）、低延时、视频解码性能64+路1080p支持（解码格式支持H.264、H.265、AVS2）。

SV102芯片内部有专门的硬件视频解码单元，其视频处理和深度学习推理性能指标数倍于现有主流数据中心GPU。基于瀚博自研、针对多种深度学习推理负载而优化的通用架构，该芯片可支持计算机视觉、视频处理、自然语言处理和搜索推荐等AI推理应用场景，同时集成高密度视频解码，广泛适用于云端与边缘解决方案，节省设备投资、降低运营成本。

天数智芯GPGPU云端训练芯片

天数智芯基于全自研GPGPU架构的云端训练芯片BI采用台积电7nm工艺，集成了240亿个晶体管，并2.5D CoWoS晶圆封装技术。该芯片可支持FP32、FP16、BF16、INT8等多精度数据混合训练，支持片间互联，其单芯算力可达每秒147T@FP16。

通过丰富的自研指令集，该芯片可支持标量、矢量、张量运算，通过可编程、可配置特性，高效支撑各类高性能计算。这款GPGPU芯片聚焦高性能和通用性、灵活性，为人工智能和相关垂直应用行业提供匹配行业高速发展的计算力，并通过标准化的软硬件生态为应用行业解决产品使用难、开发平台迁移成本大等痛点。

鲲云科技数据流AI芯片CAISA

CAISA芯片采用鲲云自研的定制数据流架构CAISA 3.0，相较于上一代芯片架构在效率和实测性能方面有了大幅提升。CAISA3.0在多引擎支持上提供了4倍的并行度选择，架构的可拓展性大大提高。在AI芯片内，每一个CAISA都可以同时处理AI工作负载，在峰值算力提升6倍的同时保持了高达95.4%的芯片利用率。此外，该芯片在算子支持上更加通用，可支持绝大多数神经网络模型快速实现检测、分类和语义分割部署。

鲲云通过自主研发的数据流技术在芯片实测算力上实现了技术突破，其芯片利用率超过95%，较同类产品提升最高达11.6倍。这种定制化数据流技术不依靠先进的晶圆制造工艺和更大的芯片面积，而是通过数据流动控制计算顺序来提升实测性能，可为用户提供更高的算力性价比。

黑芝麻智能自动驾驶芯片华山二号A1000 Pro

黑芝麻智能 A1000 Pro 采用16nm制程，单芯片INT8算力为106 TOPS，INT4算力为196 TOPS，典型功耗25W，可以满足ISO 26262 ASIL D级别功能安全要求。A1000 Pro 内置高性能 GPU ，可以支持高清 360 度 3D 全景影像渲染，内部可以配置不同数据通路和运算机制，在芯片内部部署互为冗余的双套系统和安全岛校验。

基于单颗、两颗或者四颗 A1000 Pro，黑芝麻的FAD全自动驾驶平台能够满足 L3/L4 级自动驾驶功能的算力需求，支持从泊车、城区道路到高速等自动驾驶场景。

芯擎科技“龍鹰一号”智能座舱芯片

芯擎科技7纳米车规级智能座舱多媒体芯片“龍鹰一号”是由台积电代工生产的7纳米芯片，为智能座舱集成了“一芯多屏多系统”，整合了语音识别、手势控制、液晶仪表、HUD、 DMS 以及 ADAS 融合等功能，可让驾驶人享受更直观、更富个性化的交互体验。

“龍鹰一号”内置8个CPU核心、14核GPU、8 TOPS INT 8可编程卷积神经网络引擎。该芯片达到AEC-Q100 Grade 3级别，采用符合ASIL-D标准的安全岛设计，内置独立的Security Island 信息安全岛，提供高性能加解密引擎，支持SM2、SM3、SM4等国密算法，并支持安全启动、安全调试和安全OTA更新等。强大的CPU、GPU、VPU、ISP、DPU、NPU、DSP异构计算引擎，以及与之匹配的高带宽低延迟LPDDR5内存通道和高速大容量外部存储，为智能座舱应用提供全方位的算力支持。

作者利益披露：转载，不作为证券推荐或投资建议，旨在提供更多信息，作者不保证其内容准确性。

声明：文章观点来自网友，仅为作者个人研究意见，不代表韭研公社观点及立场，站内所有文章均不构成投资建议，请投资者注意风险，独立审慎决策。

北京君正

工分