英伟达AI芯片-韭研公社

登录注册

英伟达AI芯片

春庭雪

2023-11-11 20:25:23

AI 芯片根据部署位置区分，大致上可分为云端芯片和终端芯片。云端芯片用于训练模型，俗称训练芯片；终端芯片用于终端设备，根据训练好的模型对实时数据执行推理任务，俗称推理芯片。职责不同，导致对训练芯片和推理芯片的性能要求也有很大差异：训练芯片需要通过海量数据训练可靠的模型，因此对数据传输速率、算力等指标有相当极端的要求。

这也是为什么 H100 不惜用上昂贵的HBM 内存和 CoWoS 封装，目的都是为了数据吞吐效率。「特供版」的 H800 和 A100，阉割的也是内存带宽，算力其实没有变化。

推理芯片一般处理实时任务，对于低延迟的要求更高，而且由于部署在终端，还要考虑功耗、大小、成本等问题。因此，用 RTX4090 这类消费级显卡强行训练，过低的带宽会带来「内存墙」的问题。无论是谷歌的 TPU、还是特斯拉的 FSD 芯片，大部分应用场景都是推理。

大部分国产 AI 芯片，也都是走推理芯片的路子。而在训练芯片这个场景下，英伟达的确是目前最好的选择。从绝对的算力来讲，H100 并不是巅峰。

但在 AI 训练这件事上，一口气买几百块显卡的科技公司更在意的是另一个指标：单位成本的算力。这也是为什么大家宁愿加价抢 H100，也不愿意买「青春版 H100」A100：按照 H100 SXM 版本、A100 80GB SXM 版本 8 月的销售价格（24000 美元、15000 美元）计算，每单位算力的成本分别为 12.13 美元、24.04 美元，H100 SXM 优势明显。另外，数据中心搭建完成后，还需要考虑电力、运维、故障、后期支持等多方面成本。种种因素叠加，大家还是老老实实地拿起了号码牌，加入了漫长的 H100 等待序列中。比如特斯拉，前脚宣布给自研的 Dojo 超级计算机投 10 亿美元，后脚就透露要购买 10000 张 H100 用于驱动 AI 负载。简而言之，在推理场景下，英伟达尚有替代方案；但在训练芯片里，英伟达是事实上的唯一方案。

作者利益披露：原创，不作为证券推荐或投资建议，截至发文时，作者不持有相关标的。

声明：文章观点来自网友，仅为作者个人研究意见，不代表韭研公社观点及立场，站内所有文章均不构成投资建议，请投资者注意风险，独立审慎决策。

浪潮信息

顺网科技

工分