英伟达GTC会议分析师专场交流纪要

会议主题：《NVIDIA Corp GTC Financial Analyst Q&A》
主办方：英伟达
出席人：
Colette M. Kress， NVIDIA Corporation – Executive VP & CFO
Jensen Huang， Co-Founder， CEO， President & Director
Simona Jankowski， NVIDIA Corporation – VP of IR
【黄仁勋GTC大会总结】
1、此次会议谈论到了三个动态，主要涉及可持续发展、生成式AI、数字化。
动态1：可持续发展：摩尔定律的发展已经终结，英伟达在过去若干年的时间里，一直落地加速计算的发展。截至目前，英伟达在加速计算领域做到了全栈式布局，从架构、到系统、到软件、到加速库再到对应的应用程序。

英伟达加速计算，可以做到横向扩展、向上扩展、向外扩展，产品更具有灵活性。
英伟达的加速计算平台也被用到多个领域（粒子物理学、流体动力学，直到机器人学、人工智能等等，计算机图形学、图像处理，视频处理）今天，所有这些类型的领域都消耗了大量的 CPU 内核和大量的电力。我们有机会加速所有这些，降低功耗，降低成本。
NVIDIA 的加速计算平台是从云到边缘的。这是每个云中唯一可用的架构。世界上几乎所有的计算机制造商都可以在本地使用它。它可用于推理系统、边缘系统、机器人自动驾驶汽车等等。同时英伟达的加速平台是完全开放的。这意味着您几乎可以从世界上任何地方的任何计算平台。
动态2：生成式AI有望引发人工智能的转折点。伴随着生成式AI的发展，我们经历了从世界感知到信息生成，生成式 A 引发了人工智能的转折点，并推动了 A 在全球范围内采用的阶梯式增长。非常重要的是，人们部署在全球所有云和数据中心的推理量的量也在大幅的增加。
动态3：数字化有望是人工智能的下一代浪潮。数字化的发展，有望将人工智能带入下一阶段，即下一波 AI 浪潮。在这一阶段中， AI 不仅对数字信息进行操作、生成文本和生成图像。AI将在运营工厂、实体工厂、自主系统和机器人技术。在这种特殊情况下，数字化真正有机会使世界上一些最大的行业实现自动化。
2、此次会议谈论到了四个要点，主要涉及生成式AI、硬件上市动态、加速库、云服务
要点1：生成式AI推动对英伟达加速平台的需求增长。
生成式 AI 正在推动对 NVIDIA 平台的需求加速增长。Hopper 设计了一个 transformer 引擎，该引擎专为大型语言模型和人们现在所说的基础模型而设计。随着 Hopper 的推出，Hopper 已经被几乎所有的云服务提供商所采用。
要点2：硬件上市动态—新推出DPU BlueField-3，Grace Hopper已投入生产。在AI推理领域新推出四种产品。
数据中心并非是一个单纯的计算机，而是一个巨型系统精心编排和运行的计算机群。该计算集群中的操作系统（包括容器化、虚拟化）、网络、存储、安全性等指标均非常重要。这些应用程序的隔离和未来的机密计算是在软件定义层中运行，该软件层消耗大量 CPU 内核。
新推出DPU BlueField-3。英伟达新推出的BlueField可实现“卸载、加速现代软件定义数据中心的操作系统”等功能，若干合作伙伴和云数据中心厂商正在采用BlueField产品。
Grace Hopper已投入生产，并进行抽样测试阶段。该产品主要用于主要的推理工作负载之一、矢量数据库、数据处理、推荐系统。人工智能推理系统是世界上最有价值和最重要的应用程序之一，目前推荐系统正在转向深度学习。Grace Hopper 是专门为此设计的，它让我们有机会在大型数据库的推荐系统中获得 10 倍的加速，目前Grace已投入生产，并进行抽样测试阶段。
Grace 专为无法加速的云数据中心中的其余工作负载而设计。一旦你加速了一切，剩下的就是真正想要拥有非常强大的单线程性能的软件。而单线程性能正是 Grace 的设计目标。我们还将 Grace 设计为不仅是快速计算机的 CPU，而且是非常非常节能的云数据中心的 CPU。当你把整个数据中心看成一台电脑时，当数据中心就是电脑时，那么你在加速数据中心、AI-first、cloud-first 数据中心的背景下设计 CPU 的方式，那个 CPU 设计就是完全不同。
新推出4个推理平台（L4、L40 、H100 NVL和Grace-Hopper），针对各种快速兴起的生成式 AI 应用程序进行了优化。
数据中心对于AI推理的加速诉求较强，但是该领域中的诉求是多模态的，AI推理的工作负载类型较多（有时，您想进行推理，将推理和 AI 引入视频，然后使用生成 AI 对其进行增强。有时，它是图像，产生美丽的图像并帮助成为共同创造者。有时，您正在生成文本，非常长的文本）。这些应用程序中的每一个，视频、图像、文本，当然还有矢量数据库，它们都有不同的特征，这给数据中心的建设带来了挑战。因为下游客户需要每一种模式或每一种不同的生成 AI 工作负载配备专门的加速器。同时，数据中心的服务和租户也是在不断变化的。
针对上述挑战，英伟达采取了基于一个架构四个配置的策略（L4、L40 、H100 NVL和Grace-Hopper），能够最大力度加速各种工作负载。
目前公司在此领域，正在加大与谷歌的合作。
要点3：加速库—2023年优化并发布100个库、100个模型，cuLitho加速库是今年重要看点
如果你加速工作负载，你必须重新设计应用程序，必须完全重构算法，将算法编码到加速库中。在建立每一个加速库的过程中，我们都需要了解此领域中的动态和进展，并与产业链的合作伙伴合作，创建加速库，并将他们链接到具体的应用程序生态系统，并推动和加速该领域的发展。对于英伟达来讲，客户购买了英伟达的系统，可以在未来几年内享受加速服务。在同一平台上，在您安装它之后，在其整个生命周期内将性能提高 4到10倍。
2023年，英伟达优化并发布了100 个库和 100 个模型。
在此次大会上，我们推出了cuLitho加速库，用于半导体光刻工艺的图案和掩模的创建。过去4年时间里，我们将cuLitho加速库的速度提高了约50倍。依托该加速库，一方面可以降低芯片设计中的计算时间&流水线时间和吞吐时间（如果将开发周期减少10%，对世界的价值很大），另一方面可以大幅降低电力成本的（未来有机会降低5-10倍）
要点4：云服务—历史上商业模式最大的一次扩张
云服务使得消费者有机会通过Web浏览器加速或者及时的使用计算平台。在过去10年时间里，云服务的能力在不断进步，从最开始只有CPU、运行Hadoop或者MapReduce或者做查询，到现在有高性能计算，科学计算系统，云中的 AI 超级计算机。因此，我们将与世界上所有的云服务提供商合作。从Orical开始，我们还宣布了与Azure和GCP的云合作伙伴关系。我们将与世界领先的云服务提供商合作，在云端实施、安装和托管 NVIDIA AI、NVIDIA Omniverse 和 NVIDIA DGX Cloud。这样做，可以使得消费者能够获得 NVIDIA AI 和 NVIDIA Omniverse 的完全优化的多云堆栈，而且有机会在云端享受最优化的配置，以最佳形式获得 NVIDIA 软件堆栈的所有优势。
对于那些工作量非常大并且希望从加速中受益的公司来说，最先进的人工智能的好处我们现在有一个直接的服务，我们可以在其中参与世界各行业。这是我们将 NVIDIA 带来的最好的东西和所有 CSP 的最好的东西结合起来的绝妙方式。他们为云安全、存储安全以及他们提供的所有其他 API 服务提供了令人难以置信的服务，而且他们很可能已经成为您选择的云。
宣布了平台及服务（NVIDIA AI，NVIDIA Omniverse）、技术设施及服务（NVIDIA DGX Cloud）产品，拓展了公司的商业模式。
如果一个企业的客户，如果一个行业想要访问基础模型，最明显和最容易获得的是与世界领先的服务提供商合作，如 OpenAI 或微软和谷歌。这些都是旨在为许多行业提供高可用性、高度灵活性和实用性的 AI 模型示例。
有些公司希望构建专门基于其数据的自定义模型，而 NVIDIA 拥有实现这一目标的所有能力。因此，对于希望基于其专有数据构建定制模型的客户，以其特定方式进行训练、开发和推理；无论是他们想要放置、实施的护栏，还是他们想要执行的指令类型、调整。
DGX 云在世界上所有主要的 CSP 中运行。因此，如果您已经有了自己选择的 CSP，英伟达能够在其中托管它。

【分析师Q&A】
Q1：鉴于您所谈到的推荐系统的重要性、LLM 的增长以及您与 Google 的合作，市场似乎正在朝着您的方向发展。我们应该如何考虑你在 3 到 5 年后的推理机会，我们应该如何看待 Grace 在未来几年在那里扮演的角色？
3 到 5 年后，我们今天正在建造的 AI 超级计算机，毫无疑问是当今世界制造的最先进的计算机。当然，它的规模是巨大的。它包括计算结构，如 NVLink、计算——大型计算、大规模计算结构，如 InfiniBand，以及将它们缝合在一起的非常复杂的网络。软件栈，它的操作系统，分布式计算软件，它只是计算机科学的极限。
推理目前主要是面向 CPU 的工作负载（推荐与购物、书籍或查询、视频处理等相关的内容），这是因为当今世界上的大多数推理都相当轻量级。但是我们认为这一趋势正在被改变，主要原因包括以下两个方面：
使用CPU做推理缺乏可持续性。您不能继续承担这些视频工作负载并在 CPU 上处理它们。你不能拿这些深度学习模型，即使服务质量差一点或好一点，用 CPU 来做，它只会消耗太多电力。而且这种敏感性现在已经渗透到几乎每一个云服务提供商，因为他们拥有的需要加速的工作量已经增加了很多。所以他们对加速的关注，他们对加速的警觉性提高了。其次，几乎每个人都处于他们的权力极限。因此，为了在未来实现增长，您真的必须通过加速来重新获得动力，然后再将其恢复增长。
生成式人工智能已经到来。我们将看到几乎每一个行业，从共同创造者、共同试点中受益，从共同创造者、共同试点中扩大，加速我们所做的一切，从我们创建的文本、我们与之交互的聊天机器人、我们使用的电子表格、PowerPoint 和 Photoshop 等等依此类推，它们都将成为——你将被共同创造者或副驾驶增强，你将被加速，受到启发。

Q2：过去，您主要讨论了结合使用 Grace 和 Hopper 的好处。今天，您也比我预期的更关注独立的 Grace。您能否谈谈您是否改变了对预期服务器 CPU 份额增长前景的看法？随着时间的推移，我们应该如何考虑潜在的收入贡献，特别是当你考虑 Grace 独立、Grace 超级芯片，然后显然是 Grace-Hopper 组合时？
我认为 Grace 对我们来说将是一项大业务，但它会——它远不及加速计算的规模。我们看好Grace未来业务的增长，主要是看好加速工作在计算机图形学、视频处理、生成式AI等领域中的未来发展趋势。
对于单线程代码，阿姆达尔定律仍然有效，其它的都已到达瓶颈。由于单线程代码主要与数据处理、获取大量数据、移动大量数据相关，我们设计的CPU是同时擅长处理两个事情（具有极佳的单线程性能，移动数据量非常大）。
我们设计了整个系统，而不是只构建一个超快的 CPU 核心——CPU，我们设计了一个超快的 CPU 节点。通过这样做，我们可以增强功率受限的数据中心能够使用尽可能多的 CPU 的能力。我认为总的来说，加速计算将成为未来计算的主要形式，因为摩尔定律已经走到尽头。但剩下的将是繁重的数据处理、繁重的数据移动和单线程代码。因此 CPU 仍将非常非常重要。只是设计点会与以往不同。
Q3：每次查询的成本正成为生成式 AI 客户的主要关注点，他们正在谈论在未来几个季度和几年内大幅减少。您能谈谈这对 NVIDIA 意味着什么吗？从长远来看，这会成为 H100 工作负载吗？你们如何与客户合作以降低成本？

是的，您讲的几个东西是在同时发生的。

模型将变得更大。它们之所以会变大，是因为我们希望它能越来越好地执行任务。有各种证据表明，模型的能力、质量和多功能性与模型的大小以及您用来训练该模型的数据量相关。我们希望它越来越大，用途越来越广泛。
我们是有不同类型的工作负载，但是我们并不是都需要最大的模型来推断每个工作负载，大模型是用来帮助提高小模型的质量的。这就是为什么我们有 5300 亿参数模型，我们有 400 亿参数模型，我们有 200 亿参数模型甚至 80 亿参数模型。
我们对所有这些变化进行了优化，产品矩阵包括L4/L40/H100NVL/Grace Hopper。（a）您应该为合适大小的应用程序使用合适大小的模型，所以我们的推理平台从 L4 一直延伸到 L40。（b）H100 NVL用于大型语言模型部署，非常适合大规模部署 ChatGPT 等大型 LLM。
软件端也在不断的改进中。我们不断改进软件堆栈在过去 2、3 年的过程中，我们已经改进了很多，我的意思是在短短几年内改进了几个数量级。
Q4：与谷歌的合作情况，是否采用最新的L4平台。换句话说，他们使用的是 TPU，但他们现在使用的是您的新 L4 平台？
我们与 GCP 的合作是一个非常非常大的事件。它是人工智能的转折点，也是我们合作伙伴关系的转折点。我们有很多工程师一起工作，将谷歌拥有的最先进的模型带到云端。
L4 是一个多功能的推理平台。您可以将其用于视频推理、生成模型的图像生成、大型语言模型的文本生成。我在主题演讲中提到，我们正在与谷歌合作开发一些模型，以将其引入 L4 平台。因此 L4 将成为一个非凡的推理平台。它非常节能。

Q5：Hopper的可用性怎么样，供应链是否有保证？
是的，我们确实会继续构建 H100 以满足本季度我们都看到的需求。我们也看到我们的超大规模客户对我们所有数据中心平台的更强烈需求，因为他们专注于生成 AI。
因此，即使在上个月，自从我们谈到收益后，我们也看到越来越多的需求。因此，我们相信，随着我们继续建立供应，我们将能够为这个市场服务。
Q6：公司在软件领域中的营收和创新景气度如何？我记得之前的营收体量大概在几亿美元，营收占比约1%。往未来看的话，您认为软件和订阅占您销售额的百分比是多少？增长动力来源于哪些方面？
我认为软件和服务将成为我们业务的重要组成部分。我们是一家平台型全栈式公司，与客户的合作模式包括以下三种。
基础设施&硬件层面合作
硬件层面&库层面合作
服务级别&所有级别合作。
目前，生成式AI技术的发展，已经推动了硬件业务的发展。
目前，世界是多云的，我们能够提供多云&混合云的能力，这对于我们两个软件平台来讲也是有利的。
我们的AI基础服务是这个月才刚刚开始，也是我们未来将重点发力的方向。
Q7：只是从技术角度考虑内存和计算之间关系的问题。正如您提到的，这些生成式 AI 模型正在创造大量计算。但是您如何看待内存模型？您是否将内存视为潜在的瓶颈？那么如何解决内存分解问题呢？
事实证明在计算中，一切都是瓶颈（CPU、内存、带宽、内存容量、网络、结算结构、网络、利用率等等）。
在计算过程中，我们使用的内存容量正在急剧增加。但是，我们不仅需要大量数据，还需要大量快速数据。我们需要的是类似于 Grace Hopper 所做的事情。我们需要以每秒 TB 的速度访问 0.5 TB 的数据。如果我们每秒有 1 TB 到 0.5 TB 的数据，如果您想在分布式计算系统中拥有 1 PB 的数据，想象一下我们要承受多少带宽。因此，这种非常高速、非常大容量的数据处理方法正是 Grace Hopper 的设计目标。
Q8：是否可以谈谈 DGX 云业务的经济性。就像谁实际为其中的基础设施付费一样——云供应商是否为您支付了费用，然后您将其租回，所以您正在运行它？或者我猜它是如何工作的？然后客户如何付款？谁从客户那里获得优势和经济效益？你是如何定价的？
该业务开展的步骤包括以下三步：
①我们向合作伙伴提出想法，提出建立DGX Cloud的合作意愿。
②如果他们感兴趣，他们会购买系统——包括其他人的设备，但也包括我们的设备来支持 DGX 云。因此，云服务提供商采购任何东西——任何基础设施、电力、网络、存储等等，以便建立基础设施并托管和管理它。
③我们将 DGX 云服务推向市场，结合我们将提供的所有价值，我们将设定价格并吸引客户并直接参与客户业务。
Q9：公司的商业模式正在由销售加速卡向销售系统转变，对于公司后续的利润率影响如何？
如果你不构建软件，那么你就不能做到软件的开发。为了创建一个软件，你必须有一个系统。这是我们公司的发展情况。
作为一家系统公司，NVIDIA 的独特之处在于，我们从数据中心向下构建整个系统。我们从数据中心开始构建整台计算机。未来，数据中心就是计算机。整个数据中心就是计算机。这就是我十年来一直在谈论的事情。这是我们与 Mellanox 的合并如此具有战略意义、如此重要的原因之一。
我们看待世界的方式，我看待世界的方式是整个数据中心。所以你必须从那里开始思考世界。这包括计算元素，包括系统，包括网络和存储以及计算结构和 CPU 等等，一直到系统软件堆栈，非常重要的是算法和库。我们将其设计为数据中心。我们设计它的方式，我们有纪律地设计它，这样我们就可以分解它，细分它。
我们在软件的所有层面与行业合作，然后我们分解系统、组件、系统软件，我们分解库，你可以在任何你喜欢的地方运行它，从工作站、个人电脑，所有上云或超级计算机。我们分解了网络，我们分解了交换机。我们将所有内容分解开来，或者我们很高兴为您将它们整合在一起。如果您希望我们在30天内为您安装一台超级计算机，那是有可能的。我认为，这就是我们能够一方面成为一家系统公司并开发软件，另一方面成为一家随处可用的计算平台公司的原因之一。
Q10：DGX Cloud业务，公司是如何与微软合作的？

如果 CSP 希望与客户建立直接关系，我们会很高兴。这样做的原因是因为他们的云中有一大堆 NVIDIA GPU。他们的云中有 NVIDIA 计算。无论如何，我们的软件平台都在他们的云中。如果客户想以这种方式使用它，他们可以下载 NVIDIA AI enterprise。他们可以运行他们的堆栈等等。一切都像今天一样运作。
但是，有许多客户愿意或需要与我们合作，因为我们重构了他们的整个堆栈。我们拥有专业知识，因为我们了解整个堆栈，了解如何解决否则几乎不可能出现的问题。我们拥有帮助他们做到这一点的专业知识。因此，在这些情况下，他们需要直接接触我们的工程师和计算机科学家。
我们正在与行业领导者合作，他们希望基于自己的平台构建非常特别或非常专有的东西，他们只需要我们的计算专业知识，使他们能够以他们想要的规模、在他们想要的多云范围或他们想要降低的成本和功率水平。在这种情况下，他们会联系我们。现在请注意，如果我们成为直接客户界面，我们仍会邀请我们的 CSP 合作伙伴，因为我们不提供存储，我们不提供其余 API，我们不提供安全性。必须遵守许多工业安全和隐私以及数据管理法规和标准。世界领先的 CSP 拥有这些专业知识。因此，将会发生很多合作。
Q11：公司之前做了T4，现在新的版本是L4。从这两个产品，您是如何理解AI推理市场，CPU的地位是否发生了变化？是行业哪些东西发生了变化，让您觉得小模型需要转向加速运算？
T4 是我们历史上最成功的产品之一，数以百万计的 T4 在云端。但是，云端有数千万个CPU。因此，云中仍有大量工作负载是在 CPU 上完成的。
小模型转向加速计算的原因有两个：一个是可持续，另一份是生成式AI的发展。
Q12：NVL的功耗约700W，但是会给客户增加很多功能。站在客户的角度，客户会如何部署他们？
750瓦，在如今的云数据中心里不算什么。通过NVL您可以更换数百台 CPU 服务器，主要是加速所导致的。你加速的原因是你花费了 700 瓦，这样你就可以节省 10 倍。所以 700 瓦或 7 千瓦，这就是数学。