登录注册
光or铜?一文速通服务器通信技术特点
来杯冰美
一路向北的大户
2024-03-24 20:55:02
一个背景:

网线是实现网络连通的基础设施,其种类与材质直接决定了网络的传输效率与使用体验。主要分为铜线、同轴电缆、光纤、以及无线四种类型。

以前都是紫铜线,为啥现在都是光纤?答案是各有优缺,逐步替代。服务器技术同理。

铜缆的可能性与优势

在英伟达GTC大会上,高速连接器概念横空出世,英伟达面向企业提供的GB200 NVL72服务器,内部使用的电缆长度累计接近2英里,共有5000条独立铜缆。这一度引发了市场对于“光退铜进”的担忧。不过,机构认为,光模块仍将是行业主流技术。

目前,海外供应商主导着背板连接器(铜连接)市场,但国产替代趋势正在强化。而由于英伟达GB200 NVL72有着较高放量预期,国内高速连接厂商也将迎来更有利发展条件。

 

英伟达GB200 NVL72互联模式通过NV Switch实现,其中GPU与NVSwitch采用铜互联形式(高速背板连接器),外部则使用光互联形式(光模块-I/O连接器)。

在GTC大会上,黄仁勋对铜连接方案进行了特别讲解,并强调其在成本降低和性能展示上的优势。GB200采用的是线缆背板模式,其优势在于更佳的散热、较低的传输损耗、更长的传输距离以及布线灵活性。

铜缆的优势是不需要电到光再光到电的转化,因为转化会浪费很多能量,但前提是铜缆可以做到高速率(重点)。如今,GB200 NVL72确认了铜缆方案的可行性。

根据LightCounting分析显示,由于DAC高频高速线缆(通常译为直接电缆或直连铜缆)不耗电,是致力于提高能效的数据中心连接的默认解决方案,英伟达的策略是尽可能多地部署DAC,预计2024-2028年DAC高速铜缆年复合增速达到25%。

对于市场担忧的新一代B系列GPU单位算力对于光通信带宽的匹配有所下降,更多原因在于GPU算力提升幅度短期内超出了光通信带宽的提升速度。光模块向更高速率的迈进仍为大势所趋(第49届光网络与通信研讨会及博览会(OFC) 将在2024年3月24日至28日在美国加州圣地亚哥会展中心举行,重点关注1.6T),通信带宽依旧是制约大规模集群中GPU利用率的“短板”。

铜缆的缺陷

铜缆互联仅适用于单机柜方案。如集群规模超过72颗GPU,则会涉及多个机柜互联,其中第一层网络保持用铜缆,第二层(甚至三层)网络预计会使用光模块承载。单机柜方案更适用于中小参数规模模型的训练,与超大规模集群的适用场景存在“隔离”。

GPU第一层网络不使用光互联,并不是新方案。早在2023年5月,英伟达发布的GH200集群第一层网络便未使用光模块,而是采用了背板互联的方案。由此,英伟达最新发布的GB200即便采用了铜缆方案,也不存在所谓的铜缆取代了光互连。

有关光通信

从2020起,“光进铜退”是大势所趋,但不应秉持非此即彼的思维。光模块意味着高带宽&长距离,但是成本、能耗高;铜缆在成本和能耗上有优势,但应用场景有限。

目前,在英伟达加速迭代GPU的大背景下,优先推出高速互联产品引导高端客户需求,但大部分应用场景的主要矛盾是带宽不足,而且能力需求远超铜缆的应用范围,那么自然而然会用光模块解决,少部分应用场景的主要矛盾是成本和能耗且铜缆能解决的就用铜方案。

从长期趋势上看,光模块的机会远大于铜缆,如今台积电在HPC上力推的3D堆叠封装,就是用硅光CPO解决chip to chip的互联问题,替代背板上的nvlink,初步测算长期将是一个百亿美金市场。光模块的应用场景众多,但不代表铜缆没有适用场景,这并非二元论。


由于各有特性,光模块和铜缆的使用情况取决于客户的技术方案,但主流技术还是光模块。从实物图看,GB200 NVL72内部使用铜缆时也大量采用了光模块,光模块比例进一步大幅度提升,“光进铜退”依旧是长期大趋势。



作者利益披露:原创,不作为证券推荐或投资建议,截至发文时,作者不持有相关标的。
声明:文章观点来自网友,仅为作者个人研究意见,不代表韭研公社观点及立场,站内所有文章均不构成投资建议,请投资者注意风险,独立审慎决策。
S
中际旭创
S
光迅科技
工分
2.25
转发
收藏
投诉
复制链接
分享到微信
有用 2
打赏作者
无用
真知无价,用钱说话
0个人打赏
同时转发
暂无数据