根据英伟达GPU路线图,英伟达下一代AI芯片叫B100,24年推出,有2个版本,风冷版和液冷版,可以简单理解成手机普通版和pro版。
先推出的风冷版跟现在的H100一样,功率700W。主要原因是为了尽快将B100推向市场参与竞争。
稍后,英伟达会推出一个需要液冷的1,000W+版本B100,即性能强劲很多的pro版。与风冷版的区别除了功率外,风冷版的速度是6.4Gbps,而液冷版可能高达9.2Gbps。
为什么pro版叫需要液冷的版本?因为目前700W的H100在风冷状态下的散热可以保持正常运行,对芯片本身的性能影响小,只是在数据中心有PUE要求时,需要上液冷。而这个1000W+的B100,很明显不用液冷已经无法达到所需的散热水平,会严重影响芯片性能了,所以英伟达称其为需要液冷的B100。
22年的时候,英伟达曾推出过一个液冷版A100,功率与非液冷版一致,当时的考虑主要是绿色低碳。“在单独的测试中,Equinix 和 NVIDIA 均发现:采用液冷技术的数据中心工作负载可与风冷设施持平,同时消耗的能源减少了约 30%。NVIDIA 估计,液冷数据中心的 PUE 可能达到 1.15,远低于风冷的 PUE 1.6。在空间相同的条件下,液冷数据中心可以实现双倍的计算量。这是由于 A100 GPU 仅使用一个 PCIe 插槽,而风冷 A100 GPU 需使用两个 PCIe 插槽。”
目前单张A100功率400W,H100功率700W,保守假设B100 pro版功率只有1000W,则服务器单机柜功率将比H100提升42%。未来芯片制程难以提升的情况下,效能功耗比难以进步,单卡功率将只增不减。英伟达作为AI芯片旗帜尚且如此,国产AI芯片目前比H100更容易发热,包括其他在自研AI芯片的谷歌、微软,想追赶英伟达需要比现在更强的功率,结合他们更差的散热设计,会极大加剧市场对数据中心液冷的需求。
对于鸿博、莲花、中贝们,试想作为算力客户,是想用英伟达最强的液冷版B100,还是普通版B100呢?
中贝55亿投入低碳AI算力中心,做低碳方向是对的,业内专业点的对行业风向基本预判肯定要有的。液冷数据中心基础设施占总成本的比例大约在15-20%,就是说液冷基础设施实施方在中贝这一个项目上营收8.25-11亿。对于这种规模的算力中心,做液冷是最稳妥的,因为在实施过程中会发现购买的算力芯片功率越来越大,英伟达24年的B100就达到1000W+,25年的X100功率肯定要突破1300W+了。
液冷,全市场最正宗且为行业龙头的就是曙光数创。