登录注册
DPU行业资深专家交流纪要
八卦猫
公社达人
2023-04-17 22:02:02

【核心要点】l 

SmartNIC 是在普通网卡上增加了网络、存储、安全等硬件卸载功能,降低CPU 的工作负载,提升数据中心东西向流量。而 DPU 是 SmartNIC 技术路线上的进一步演进,能够实现(1)用户租赁云服务的资源所见即所得,租赁的 CPU 资源用于计算处理;(2)CPU、DPU 硬件的相互隔离,故障得到有效控制。l 国内主要玩家有中科驭数、云豹智能、左江科技、芯起源等,依赖于细分市场资源,国内 DPU 厂商对垂直市场有相应的产品开发和运作。

DPU 主要的技术壁垒在IP 授权上,比如 SerDes、PCI-E 的 IP 授权。目前国内产品的最大带宽主要在 25G,个别厂商有带宽 100G 及以上的产品。国外大厂如英伟达的产品带宽已经到 400G ,AMD 和英特尔的产品主要在 200G,博通网卡主要在 100G。

l 随着服务器算力增长以及大语言模型等人工智能技术推动的 AI 集群在各大领域的部署,推动了数据中心网络向高速网络迭代的节奏。部署在数据中心的服务器要实现网络互连,一台服务器至少一张网卡,比如 AI 的 GPU 服务器,网卡数量会达到 8-10 张;CPU 服务器是 1-2 张,其他场景介于两者之间,根据业务和带宽需求,部署不同数量的网卡。

【主持人问答】

1、DPU 发展历程l 狭义角度,在英伟达、英特尔等大厂引导下,DPU 指的是本身带有 CPU、操作系统,并且具备网络流量处理等功能的网卡。

ü 亚马逊:云上业务部署规模最大的公司之一,很早意识到在大规模数据中心建设下,传统网络相对于数据中心的高速网络需求是滞后的,需要对数据中心网络做改造,所以亚马逊很早就开始布局类似 DPU 的芯片——Nitro。ü 阿里云:国内云业务领先的云厂商,针对云上用户的CPU 负载和需求,在传统网卡上增加部分功能,满足云上业务灵活快速部署,提升数据中心网络体验。2017 年发布了神龙 MOC 卡。以上两者是带有 DPU 概念的智能网卡的最早形态。

ü 2020 年英伟达收购 Mellanox,2020 年 GTC 战略发布中将 DPU 定义为第三颗主力芯片, 并推出BlueField- 2 DPU,相比 SmartNIC,BlueField DPU 能够在一定程度上实现增强功能,比如管理面、流量虚拟化上的新增功能等。

2023 年GTC 发布了 BlueField-3 DPU,用于数据中心网络、存储和安全的 400Gb/s 处理器。l 广义角度,DPU 会延伸到更大范畴,部分初创厂商会把SmartNIC 智能网卡冠以 DPU 名称。2、普通网卡——SmartNIC——DPU 的技术演进l 数字化、Al 和元宇宙等新技术带来对大型数据中心强劲的需求,推动数据中心内部网络升级改造。

原来数据中心更关注的是单台服务器的算力,比如 CPU 和 GPU 的性能,但是越来越多复杂业务以云化方式呈现,需要数据中心内部的不同计算器件的并行协作能力,数据中心东西向流量也呈爆炸式增长。这种情况下,对数据中心内部的网络流量的高带宽需求变得迫切,需要更多高性能网卡卸载这部分的流量。

从这个角度,涉及到普通网卡和SmartNIC 的区别:ü 普通网卡(万兆以下):基于 TCP/IP 协议栈负责服务器内部的报文封装与转发,但是当流量带宽需求增大,普通网卡处理大流量业务会遇到两个瓶颈, 一是基于TCP/IP 协议栈,网卡带宽无法有效扩展,很难提升到万兆以上;二是 CPU 性能提升和网卡带宽变大后,CPU 上的压力会变得非常大, 部分CPU 资源没有处理真正的计算,而是处理流量转发型任务。由此 SmartNIC 概念被提出,在普通网卡上增加硬件卸载的特性,我们现在看到的网卡(25G、100G 甚至以上),都是带有多种硬件加速功能的 SmartNIC,使得数据中心的东西向流量有效提升,CPU 端压力负载也在下降。

ü 除了网络侧的升级改造,依托在网络上的存储功能,比如虚拟机上的存储盘是通过网络存储协议连接到远端设 备,存储协议和相关控制也向网卡上迁移。以及数据中心的防攻击、安全加解密迁移, 这些都是比较明确的需求,增加到 SmartNIC 上。SmartNIC 按照这个方向迭代演 进。

l 从数据中心的角度,希望能够做到更好的数据面隔离,因为数据中心的使用场景还是基于虚拟化的业务 部署,如果还是以 SmartNIC 的方式提供服务,用户会看到自己租赁的一部分CPU 要维系网络、存储和 安全相关的资源消耗,还要拿出 CPU 的部分资源在虚拟机各用户间构建内部的虚拟网络和转发机制等等, 用户体验并不好。越来越多的客户希望租赁的资源所见即所得,存储、安全和网络等基础设施相关功能 要从租赁的 CPU 里独立出去;从管理角度,一些基础设施运维在客户端的资源里面,导致故障不可控, 比如一个用户进程的挂死会导致整个物理机内部的网络通信受到影响。

l DPU 可以有效解决这些问题,把整个基础设施的网络、存储、安全相关资源迁移到 DPU 上,用户租赁的 CPU 资源所见即所得,而且硬件上 CPU、DPU 相互隔离,故障可以得到有效控制。同时, 在英伟达等大厂引导下,DPU 概念兴起,更多厂商在原有的SmartNIC 技术路线上往 DPU 方向演进。

3、国内 DPU 市场主要玩家l 中科驭数、云豹智能、左江科技、芯起源等,国内 DPU厂商会依赖于市场资源,对细分市场有相应的产品开发和运作。据专家了解,目前国内产品最大带宽主要在 25G,国外大厂如英伟达的产品已经到 400G, AMD 和英特尔的产品主要在 200G,博通网卡在 100G。

4、国产 DPU 研发过程面对的主要IP 授权有哪些l SerDes IP 授权。高速网卡属于服务器内部的高速数据传输器件,厂商设计过程中,会有模块侧 25G SerDes IP 授权需求。l PCI-E IP 授权。网卡接 CPU 端的 PCI-E 也是比较成熟的IP 器件。据专家了解,国内还没有比较成熟的、能够独立开发设计PCI-E 的厂商。l DPU 相比 SmartNIC,会运行自己的操作系统,其中涉及到数据报文的暂时存储,内存管理器件也会有相应 IP,这也是部分真正开发 DPU 的厂商面临的重要 IP。

5、国产 DPU 的制程l 据专家介绍,国内 DPU 的制程更多的集中在 28nm 和14nm,DPU 并不像其他芯片 CPU/GPU 等依赖先进纳米制程工艺。英伟达的 25G/100G 网卡选择的是 28nm 的制程,已经大量出货,说明 28 纳米制程对25G/100G 网卡是一个合适节点,这是对于有成熟经验的国外大厂。对于国内厂商,如果按照国际大厂的制程节点设计生产,因为技术上相对国外大厂有一些劣势, 因此不排除国产DPU 芯片会采用更先进的 14 纳米制程,通过更高端的工艺制程提升竞争力。

6、国内云厂商的公有云服务器配置 DPU 的情况l 阿里:阿里在 DPU 上布局很早,2017 年阿里云推出了自研第一代神龙服务器,搭载自研 MoC 卡,以MoC 卡为雏形,2022 年发布云数据中心专用处理器 CIPU。涉及到相关的虚拟化业务已经使用了 MoC 卡。在高端的网络应用场景,会外采国外芯片,比如英伟达的高端网卡,支撑高性能集群的应用。l 腾讯:腾讯有自研DPU 产品,布局相对阿里稍晚,使用规模也没有阿里大。l 三大运营商:也有DPU 的布局,比如中国电信推出天翼云资金 DPU。运营商在 DPU 的部署时间慢于云厂商,目前部署的规模也不是很大。

【问答环节】

Q:DPU 的市场规模 l

专家介绍,如果看更大的 SmartNIC 市场,每年大概三四十亿美金的规模。数据中心本身有 3-5 年的迭代周期,随着服务器算力增长,提供算力服务需求越大,会使得DPU 或者 SmartNIC 的网络带宽需求持续增加。同时,大语言模型等人工智能技术推动的 AI 集群在各大领域的部署,会更加加速数据中心网络向高速网络迭代的节奏,数据中心在网络通信上的投资有变快的迹象。

Q:国内 DPU出货量l

如果算上 SmartNIC,国内 25G 以上网卡市场,大概每年有 300-400 万张出货量。

Q:公有云单台服务器配置 DPU 的数量l 实际上进数据中心的服务器都有网络互联的需求,所以一台服务器至少要一张网卡。具体看服务器的类型,比如说在 AI 应用里的 GPU 服务器,网卡数量会达到 8-10张;CPU 服务器是 1-2 张,其他场景介于两者之间,根据业务和带宽需求,部署不同数量的网卡。

Q:25G/100G/200G/400G 的 DPU 的价格l

目前DPU 价格较贵,DPU 比普通网卡价格高 2-3 倍,比如 25G DPU 大概 7000-8000 元,100G DPU 在15000 元以上,200G 和 400G 的 DPU 的价格超过20000 元。

Q:SmartNIC 到 DPU 的难点l

从 SmartNIC 到 DPU 的难度并不会太多体现在技术上,DPU 是 SOC 芯片,类比手机芯片,手机芯片没有高速网络功能,但其他的内存访问、CPU 计算处理等功能都和DPU 相似,DPU 还做了一些安全、存储相关的加速功能的 IP 设计,这些功能在 SmartNIC 网卡上也有,也就是说,如果想做好 DPU,可以先把 SmartNIC 做好。l

从 SmartNIC 到 DPU 的难度,专家认为更多体现在如何让客户对 DPU 产品买单,DPU 深度依赖于客户需求和场景,要有更灵活的设计才能满足云厂商的需求。l

如果只是做 SmartNIC,解决大带宽传输、CPU 资源卸载等需求,各家客户没有太大差别。

Q:网卡或者 DPU 的国产化率?

l 25G/100G 网卡上的器件、PCB 板等,大部分已经实现国产;但是芯片内部的IP,比如 SerDes 和 PCI-E的 IP 授权还是有向国外购买的需求。

作者利益披露:转载,不作为证券推荐或投资建议,旨在提供更多信息,作者不保证其内容准确性。
声明:文章观点来自网友,仅为作者个人研究意见,不代表韭研公社观点及立场,站内所有文章均不构成投资建议,请投资者注意风险,独立审慎决策。
S
*ST左江
工分
2.36
转发
收藏
投诉
复制链接
分享到微信
有用 2
打赏作者
无用
真知无价,用钱说话
0个人打赏
同时转发
评论(3)
只看楼主
热度排序
最新发布
最新互动
  • 只看TA
    2023-04-17 22:06
    谢谢分享
    2
    0
    打赏
    回复
    投诉
  • 只看TA
    2023-05-02 15:07
    感谢分享
    1
    0
    打赏
    回复
    投诉
  • 1
前往