通过对英伟达H100最新架构试算:8个节点(单服务器),NVLink下需要18对、36个osfp,也就是36个800G - > 一个POD集群需要36x32=1152个800G光模块。
若需要InfiniBand网络,则是传统叶脊双层架 构,需要800G或2x400G(NDR),数量关系与普通集群差异不大,依据不同规模可另外计算。
以全球算力领军和标杆NVIDIA为案例,在最新的DGX H100 SuperPOD方案下,做一个 尝试性的定量测算,解释为何400G/800G以上光网络在AI框架下是必然选择:
(一)NVLink迭代至gen4,每通道带宽达100 Gbps:
NVLink是专门设计用于高速点对点链路互连GPU(GPU to GPU)的网络方案,开销比传 统网络更低,传统网络中复杂网络功能(例如端到端重试、自适应路由、数据包重新排序等) 可以在增加端口数的情况下进行权衡。
此外,基于NVLink的网络接口更加简单,允许将应用程序层、表示层和会话层功能直接嵌入到CUDA本身中,从而进一步减少通信开销。
在18个NVLink4时,H100搭配NVLink4可以实现900GB/s双向带宽。
(二)NVSwitch芯片迭代至gen3,每个芯片64个NVLink 4接口:
在H100芯片+NVLink 4协议这一代,应为配套了NVSwitch 3芯片方案,采用台积电4N工 艺,满足GPU间的点对点连接,内嵌ALU使NVSwitch提供FP32的400GFLOPS计算吞吐, 每个芯片64个NVLink 4接口。
NVSwitch3芯片提供64个NVLink4接口,每个NVLink4通道x2即200Gbps单向带宽,单个芯片可提供64 x 200Gbps=12.8Tbps(1.6TB/s)单向带宽、或3.2TB/s双工带宽。上述基本的一些拆解可能有些晦涩,但是已经尽量明白的讲解了,只能说这些高科技的东西还是太复杂,那接下来就进入重点!!!以下为组网架构与光模块需求预测!!!
结论:在英伟达DGX H100 SuperPOD最新的NVLink Switch架构算力架构下,GPU+NVLink+NVSwitch+NVLink交换机的架构需要大量800G通信连接方案,NVLink系统大致可对应GPU与800光模块1:4-1:5的数量关系,IB NDR网络则需要更多。
新的NVLink Switch的架构在H100硬件基础上,在某些AI场景下可以贡献比 IB网络接近翻倍的性能。AI发展的基础是算力提升,预计极致性能和极致功耗是未来硬件架构发展的主要驱动,预计400G/800G以上速率的网络方案将加速放量。
在H100最新的NVLink Switch架构下试算,单服务器NVLink下需要18对、36个osfp,也就是36个800G;一个POD集群的32台服务器则需要36x32=1152个800G光模块。
高速率光模块、CPO/LPO/MPO等技术本身预示了未来硬件架构发展的主要方向是追求极低功耗下的极高性能,且系统整体算力效率有木桶效应,网络环节较容易产生瓶颈,影响各类训练推理考虑,因此高速光网络的迭代是AI刚需!
......
在上述深度逻辑的加持下,市场已经深度挖掘了CPO和LPO标的,如CPO龙头中际旭创、新易盛已经短期加速翻倍走势,LPO龙头剑桥科技更是已经接近4倍的涨幅!而唯独MPO这个细分一直还无人问津,难道是逻辑不够硬?
实际上几张图就可以解决逻辑上的疑惑,高密度光纤连接器即MPO的核心,而国内MPO的龙头就是太辰光!
从上面这几张图就能看到,光模块的增量会带来同比例的MPO的增量,也就是说,上述对于光模块的增量推导,也完全适用于MPO!他们是完全一样的逻辑,就像你点一次外卖就会给一副餐具一样!
这里还有一个保底,就是如果国内大模型推进不及预期,国外遥遥领先我们,那太辰光也是高度受益的,因为它直接供货给北美云厂商,国外的收入占其总收入83.72%,直接供货给META等云巨头。而外销收入占比也一直是光模块的一条暗线,如剑桥科技80.36%,中际旭创85.63%,新易盛78.17%。
对于光模块本身我十分看好,也是因为这个方向能够直接体现出业绩,lightcounting近期本身也在上调800G以及更高速率光模块的出货量,盘面上大把机构买入这个方向也是有目共睹的,无需多言。
不过光模块几大龙头都开始产生交易拥堵,被资金深度挖掘,那我只能再接着挖掘更有预期差的地方且真正受益的地方,最终正确与否,市场一定会给出答案!