AI 芯片根据部署位置区分,大致上可分为云端芯片和终端芯片。云端芯片用于训练模型,俗称训练芯片;终端芯片用于终端设备,根据训练好的模型对实时数据执行推理任务,俗称推理芯片。职责不同,导致对训练芯片和推理芯片的性能要求也有很大差异:训练芯片需要通过海量数据训练可靠的模型,因此对数据传输速率、算力等指标有相当极端的要求。这也是为什么 H100 不惜用上昂贵的HBM 内存和 CoWoS 封装,目的都是为了数据吞吐效率。「特供版」的 H800 和 A100,阉割的也是内存带宽,算力其实没有变化。推理芯片一般处理实时任务,对于低延迟的要求更高,而且由于部署在终端,还要考虑功耗、大小、成本等问题。因此,用 RTX4090 这类消费级显卡强行训练,过低的带宽会带来「内存墙」的问题。无论是谷歌的 TPU、还是特斯拉的 FSD 芯片,大部分应用场景都是推理。大部分国产 AI 芯片,也都是走推理芯片的路子。而在训练芯片这个场景下,英伟达的确是目前最好的选择。从绝对的算力来讲,H100 并不是巅峰。但在 AI 训练这件事上,一口气买几百块显卡的科技公司更在意的是另一个指标:单位成本的算力。这也是为什么大家宁愿加价抢 H100,也不愿意买「青春版 H100」A100:按照 H100 SXM 版本、A100 80GB SXM 版本 8 月的销售价格(24000 美元、15000 美元)计算,每单位算力的成本分别为 12.13 美元、24.04 美元,H100 SXM 优势明显。另外,数据中心搭建完成后,还需要考虑电力、运维、故障、后期支持等多方面成本。种种因素叠加,大家还是老老实实地拿起了号码牌,加入了漫长的 H100 等待序列中。比如特斯拉,前脚宣布给自研的 Dojo 超级计算机投 10 亿美元,后脚就透露要购买 10000 张 H100 用于驱动 AI 负载。简而言之,在推理场景下,英伟达尚有替代方案;但在训练芯片里,英伟达是事实上的唯一方案。
作者利益披露:原创,不作为证券推荐或投资建议,截至发文时,作者不持有相关标的。
声明:文章观点来自网友,仅为作者个人研究意见,不代表韭研公社观点及立场,站内所有文章均不构成投资建议,请投资者注意风险,独立审慎决策。