登录注册
光模块观点随笔:继续学习网络架构?
夜长梦山
2024-04-14 22:44:23
【CJ通信】光模块观点随笔:继续学习网络架构? —————————— 在Marvell AI Day的PPT中展示了未来AI的网络架构,其中提到了frontend+backend网络,同时Loi Nguyen在演讲中提到10w卡的集群可能会用到五层网络架构,GPU:光连接(optical interconnect)或达到1:5,且未来100w卡的集群也值得期待,#如需原稿材料欢迎私聊。 【frontend+backend是啥?】在PPT中给的解释是backend网络用于一个集群(cluster)内AI服务器的互联,而frontend网络用于AI服务器和数据中心内的其他设备互联比如存储,也就是frontend和backend有明确的分工。#这里可以举2个典型的frontend+backend并存的例子,去年发布的GH200 NVL256集群,以及今年后续或发布的GB200 NVL576集群。在GH200架构中,Quantum-2 IB交换机只用于Rack to Rack的Grace CPU和存储 的互联,而GPU互联通过NVLink交换机的rack to rack组网,两者的带宽差异达到9倍,NVLink的速率要远高于IB/以太网。 【五层网络架构怎么理解?】基于胖树架构的拓扑原理,我们知道当交换机端口数是N,两层胖树互联上限是N^2/2,三层是N^3/4,如果用五层,会达到N^5/16,如果以常见的64port的交换机为例,五层网络实现最大互联规模达到6700多w张GPU,并不是Loi Nguyen提到的10w卡。#因此Loi Nguyen说的五层有可能是将frontend和backend网络加起来算的。还是以GH200 NVL256为例,可以做成NVLink交换机组网2层(backend),IB交换机组网3层(frontend),合计是5层。这类架构的Interconnect多了很多,所以光模块用量确实也非常惊人,从Interconnect的维度看,GPU:Interconnect是1:5,但是部分Interconnect带宽非常高,比如NVLink4达到单向3.6Tbps,是同代际CX-7的9倍,#因此实际上光模块用量会超过GPU:Interconnect的比例。 综上,Marvell对网络架构的持续升级保持乐观看法,尤其是GPU:光连接的比例,对此我们也认同,随着摩尔定律逐步达到极限,单GPU卡性能提升或有天花板,#未来AI架构的演进将更加强调互联性能的提升,网络设备capex占比有望持续增加。
作者利益披露:转载,不作为证券推荐或投资建议,旨在提供更多信息,作者不保证其内容准确性。
声明:文章观点来自网友,仅为作者个人研究意见,不代表韭研公社观点及立场,站内所有文章均不构成投资建议,请投资者注意风险,独立审慎决策。
S
新易盛
工分
4.78
转发
收藏
投诉
复制链接
分享到微信
有用 5
打赏作者
无用
真知无价,用钱说话
0个人打赏
同时转发
评论(2)
只看楼主
热度排序
最新发布
最新互动
  • 一颗土豆的烦恼
    明天一定赚的剁手专业户
    只看TA
    04-15 07:49
    谢谢分享
    1
    0
    打赏
    回复
    投诉
  • 只看TA
    04-15 05:40
    感谢分享
    1
    0
    打赏
    回复
    投诉
  • 1
前往