黄仁勋巴黎GTC最新演讲:一个由AI工厂驱动的全新工业革命已经到来!

黄仁勋巴黎GTC最新演讲:一个由AI工厂驱动的全新工业革命已经到来!
2025年06月17日 18:22 亚布力中国企业家论坛

黄仁勋

英伟达创始人兼CEO

近日,英伟达创始人兼CEO黄仁勋出现在法国巴黎的VivaTech大会,带来他标志性的GTC主题演讲。演讲全程近两个小时,黄仁勋用他特有的节奏,将GPU、AI 工厂、代理智能、人形机器人等看似分散的议题,抽丝剥茧般串成一条线索:一个由AI工厂驱动的全新工业革命已经到来。

以下为演讲实录:

英伟达曾经想要创造一个新的计算平台,去做普通计算机无法完成的事情。我们加速了CPU,创造了一种称为加速计算的新型计算方式。我们的第一个应用之一是分子动力学。从那时起我们已经走了很长的路。有这么多不同的库。事实上,使加速计算特别的原因是:它不仅仅是一个你编译软件的新处理器。你必须重新构建你的计算方式。你必须重新设计你的算法。

事实证明,人们很难将软件和算法重新设计得高度并行化。因此,我们创建了库来帮助各个市场。每个应用领域都得到了加速。每一个库都为开发者开辟了新的机遇。这也为我们和我们的生态系统合作伙伴带来了新的增长机会。

计算光刻,可能是当今半导体设计中最重要的应用之一,在台积电的工厂中运行三星,大型半导体制造厂。芯片制造之前,它会通过逆物理算法运行计算光刻。直接稀疏求解器,代数多重网格求解器。我们刚刚开源了。令人难以置信的激动人心的应用库。该库加速决策过程,以优化拥有数百万变量和数百万约束的问题,例如旅行推销员问题。

Warp,一个用于表达几何和物理求解器的Python框架,非常重要。cuDF、cuML、结构化数据库、数据框、经典机器学习算法。cuDF 加速 Spark,无需修改代码。cuML 加速 scikit-learn,无需修改代码。Dynamo 和 cuDNN。cuDNN 可能是英伟达迄今为止创建的最重要的库。它加速了深度神经网络的基本操作。而 Dynamo 是我们全新的库,使得调度成为可能:协调、分配极其复杂的推理工作负载,覆盖整个 AI 工厂。

cuEquivariance和cuTensor,张量收缩算法。Equivariance适用于遵循几何法则的神经网络。例如蛋白质、分子。Ariel和Shona,是实现 AI 运行 6G 的非常重要的框架。Earth-2,是我们用于天气和气候基础模型的仿真环境。平方公里级,分辨率极高。MONAI,我们的医学影像框架,极受欢迎。Parabricks,我们的基因组分析解决方案,取得了巨大成功。cuQuantum,CUDA-Q,我稍后会谈到,用于量子计算。还有cuPineumeric,加速NumPy和SciPy。

这些只是库的几个例子。还有另外400个。它们中的每一个都加速了一个应用领域。每一个都开辟了新的机遇。其中最令人兴奋的之一是CUDA-Q。CUDA-X是一套库,专为在CUDA基础上加速应用和算法而设计的库套件。我们现在有了CUDA-Q。CUDA-Q是为量子计算设计的,适用于经典和量子基于GPU的量子经典计算。

我们已经在CUDA-Q上工作了好几年了。如今,量子计算正处于一个转折点。近30年前首次展示了物理量子比特。1995年发明了纠错算法。2023年,近30年后,谷歌展示了世界上第一个逻辑量子比特。从那以后,几年过去了。逻辑量子比特的数量——由大量带有纠错的物理量子比特组成——也有所增加。逻辑量子比特的数量开始增长。

就像摩尔定律一样,我完全可以预期每五年逻辑量子比特数量增加十倍。每十年逻辑量子比特数量增加一百倍。这些逻辑量子比特将具备更好的错误纠正能力:更加稳健,性能更高,更具弹性,当然将继续具备可扩展性。量子计算正达到一个拐点。

我们一直以多种方式与全球的量子计算公司合作,但在欧洲,这里有一个庞大的社区。我最近见到了帕斯卡尔,还见到了巴塞罗那超级计算中心。现在很明显,我们已经接近能够应用量子计算的阶段了:量子经典计算将在未来几年内解决一些有趣的问题。这是一个非常激动人心的时刻。

因此,我们一直在与所有超级计算中心合作。现在非常清楚,在未来几年内,或者至少在下一代超级计算机中,每一个都会分配一个量子处理单元(QPU),并且 QPU 会连接到 GPU。量子处理单元当然会执行量子计算,而 GPU 则用于预处理:用于控制和纠错,这将极其计算密集;后期处理等。

在这两种架构之间,就像我们加速了CPU一样,现在有了QPU与GPU协同工作,推动下一代计算的发展。今天我们宣布,我们的整个量子算法堆栈现已 Grace Blackwell 200上实现加速。加速效果令人难以置信。

我们以多种方式与计算、通信和量子计算行业合作。其中一种方式是使用cuQuantum来模拟量子比特,或模拟运行在这些量子计算机上的算法。基本上是使用经典计算机来模拟或仿真量子计算机。在另一个极端,极其重要的是CUDA-Q:基本上是发明了一种新的CUDA,将CUDA扩展到量子经典领域。这样,在量子计算机到来之前,基 CUDA-Q开发的应用可以以模拟方式运行,或者在量子计算机到来后以协作方式运行:一种量子经典加速计算方法。

今天我们宣布CUDA-Q已可用于Grace Blackwell。这里的生态系统极为丰富,当然欧洲在科学领域深厚,在超级计算专业知识方面深厚,在这一领域有着深厚的传承。在这里看到量子计算的进展并不令人惊讶。在未来几年,我们将看到一个真正精彩的转折点。

无论如何,对于所有在量子计算机行业工作了三十年的同仁们,我祝贺你们取得了如此令人难以置信的成就和今天的里程碑。

让我们来谈谈人工智能。你可能会惊讶我会和你们谈论人工智能。正是同一款GPU驱动并支持了我刚才提到的所有这些应用。同样的支持GPU的人工智能技术将走向世界。

我们第一次接触是在2012年,就在那之前。与开发者合作,研究一种称为深度学习的新型算法。它促成了AI的AlexNet大爆炸:2012年。在过去大约15年里,人工智能取得了令人难以置信的快速进展。

第一波人工智能是感知,让计算机识别信息、理解信息。第二波,是我们大多数人都在讨论的过去五年左右,是生成式人工智能。它是多模态的,意味着人工智能能够同时学习图像和语言。因此,你可以用语言提示它,它就能生成图像。人工智能具备多模态能力以及翻译和生成内容的能力,推动了生成式人工智能的革命。生成式人工智能,即生成内容的能力,对我们的生产力至关重要。

我们正在开启新一波的人工智能浪潮。在过去的几年里,我们见证了人工智能能力的巨大进步。从根本上说,智能就是理解、感知、推理和规划任务:如何解决问题,然后执行任务。感知、推理、规划,智能的基本循环。它使我们能够应用一些先前学到的规则来解决我们从未见过的问题。

这就是为什么聪明人被认为聪明,因为他们能够将一个复杂的问题一步步拆解、推理如何解决问题,或许还会进行研究:也许去学习一些新知识,寻求帮助;使用工具,逐步解决问题。我刚才描述的这些话,基本上今天通过所谓的代理型人工智能是可能实现的。我马上会给你展示更多内容。

在其物理实现中,即该代理智能和运动的体现。现在,生成能力正在生成运动。不是生成视频,也不是生成图像或生成文本;这项人工智能生成了运动能力,即行走能力或者伸手抓取某物,使用工具。让人工智能具备实体形态的能力,基本上就是机器人技术。这些能力,是实现智能体的基础技术。它们基本上是信息机器人和具身人工智能:物理机器人,这两项基本能力现在已经到来。

人工智能的时代真是令人非常兴奋。但这一切,都是从GeForce开始的。而GeForce带来了计算机图形技术。这是我们曾经开发的第一个加速计算应用。计算机图形技术的发展令人难以置信。GeForce将CUDA推向世界,使火星机器学习研究人员和人工智能研究人员能够推动深度学习的发展。随后,深度学习彻底改变了计算机图形技术,使我们能够将计算机图形提升到一个全新的高度。

但我今天展示的所有内容都是计算机模拟,光子模拟、物理模拟、粒子模拟,一切本质上都是模拟,不是动画,也不是艺术。它看起来非常美丽,因为事实证明世界本身就是美丽的,而且数学也是美丽的。那么,让我们来看看。

数字在行动,这基本上就是模拟的本质,看起来非常美妙。但正因为我们现在能够以如此规模和速度模拟几乎所有事物,我们可以将一切转化为数字孪生。而且因为一切都可以成为数字孪生,它可以在投入物理世界之前,完全通过数字方式进行设计、规划、优化和操作。我们将一切都用软件构建的理念如今已成为现实。

所有实体物品都将以数字方式构建。所有宏伟的建筑都将以数字方式构建。所有在巨大规模上运行的事物,都会首先以数字形式构建,并且会有数字孪生来操作它们。所以今天我们将重点讨论数字孪生。这最初是作为一款GeForce显卡开始的。

最初的GeForce重达两吨,甚至两吨半,由120万个零件组成。大约300万美元,120千瓦。在150家工厂制造。200家技术合作伙伴与我们共同努力实现这一目标。可能是大约400亿美元的研发预算,现在正在向GB300 迈进。它已经完全投入生产。

这台机器被设计成一台思考机器。所谓思考机器,是指它能够进行推理。它有计划。它花很多时间自言自语,就像你一样。我们大部分时间都在为自己的思维生成文字,在我们表达之前,为自己的思维生成图像。因此,思考机器实际上就是 Grace Blackwell 设计的架构目标。它被设计成一个巨大的 GPU。我之所以这样比喻,是有充分理由的。GeForce 是一块 GPU,GB200 也是。它是一个巨大的虚拟 GPU。

现在,我们必须将其拆分成许多组件。创建了一系列新的网络技术和 SerDes 技术。极低功耗、高能效的互连技术,将所有这些芯片和系统连接成一个虚拟 GPU。这是 Hopper 版本。这是世界著名的 Hopper 系统。这是八个通过 NVLINK 连接在一起的 GPU。这里没有显示的是一个 CPU 托盘:一个带有双 CPU 和系统内存的 CPU 托盘,位于上方。这共同构成了一个人工智能超级计算机的节点,大约五十万美元。

这是霍普系统。这就是——真正让我们在人工智能领域崭露头角的系统。它长期以来一直处于资源不足的状态。因为市场发展得太快了。但这是著名的霍普系统。整个系统,包括 CPU,都被这个 Grace Blackwell 节点所取代。这就是一个计算托盘,就在这里,将取代整个系统。它采用全液冷设计,CPU 直接集成与 GPU 相连,所以你可以看到或听到两个 CPU、四个 GPU。它的性能超过了整个系统。

但令人惊讶的是,我们想要将一大批这样的系统连接在一起。如何将所有这些系统连接起来,对我们来说真的很难想象。所以我们将其拆分了。我们所做的是将整块主板拆分成了这个和这个。这是革命性的 NVLINK 系统。扩展计算并不难。只需用以太网连接更多 CPU。横向扩展并不难。纵向扩展极其困难。

你只能建造出你能够建造的最大规模的计算机。将大量技术和电子设备集成到一个内存模型中是非常困难的。因此,我们决定创建一种新的互连技术,称为 NVLINK。NVLINK 是一种内存语义互连。它是一个计算结构,不是网络。它直接连接到所有这些不同 NVLINK 系统计算节点的 CPU。

这是交换机。这九个部分位于底部,中间是 NVLINK 交换机,连接它们的是这个奇迹。这就是NVLINK 主干。这是100%纯铜,同轴铜线。它将所有 NVLINK 芯片直接连接到所有 GPU。在整个主干线上直接连接,使每一个 144 个 Blackwell 芯片核都相连。或者在 72 个不同的封装中,同时相互通信,且不会阻塞贯穿整个 NVLINK 骨干网络。其带宽约为每秒130太字节。它的数据传输速率超过了全球整个互联网峰值流量的总和,就在这个背板上。这就是你如何将互联网缩小到 60 磅的重量。

因为计算机的工作方式被认为是你对计算机的看法将来会有根本性的不同。我会花更多时间讲这个。但它的设计目的是让 Blackwell 在性能上远超 Hopper。请记住摩尔定律,半导体物理每三到五年只能带来大约两倍的性能提升。我们如何能在一代产品中实现 30 到 40 倍的性能提升?而我们需要的是 30 到 40 倍的性能提升。因为推理模型在自言自语。

它不再是一次性完成的 ChatGPT,而是一个推理模型。当你自我思考时,它会生成更多的标记。你正在一步步地分解问题。你在推理,尝试各种不同的路径。也许是思维链,也许是思维树。最好的结局。它正在反思自己的答案。你可能看到这些研究模型,反思答案时会说“这是个好答案吗?你能做得更好吗?”然后他们“哦,是的,我能做得更好。”然后回去再多想想。因此,那些思考模型、推理模型达到了惊人的性能,但这需要更多的计算能力。

 NVLINK-72 Blackwell 架构的最终成果则带来了性能的巨大飞跃。阅读方式是,X 轴表示思考的速度。Y 轴表示工厂在同一时间支持大量用户的产出能力。因此,你希望工厂的吞吐量尽可能高,以支持尽可能多的人,从而使工厂的收入达到最大化。你希望这个轴尽可能大,因为人工智能很聪明:这里比这里更聪明。越多,它思考得越快,回答你的问题之前能思考得越多,这与 ASP 有关。Token的平均售价,这必须与工厂的吞吐量有关。这两者结合在那个角落就是工厂的收入。基于 Blackwell 的这家工厂由于其架构,可以产生更多的收入。

我们所建造的东西真是令人难以置信。我们为你制作了一部电影,旨在让你感受到打造 Grace Blackwell 所投入的巨大工程量。

布莱克韦尔是一项工程奇迹。它始于一块空白的硅片。数百道芯片加工和紫外光刻工序,在一块 12 英寸的硅片上,一层层构建起 2000 亿个晶体管。晶圆被划分成单个 Blackwell 芯片经过测试和分类,将良品芯片分离出来以便后续使用。芯片-晶圆-基板工艺将 32 个 Blackwell 芯片和 128 个 HBM 堆叠安装在定制的硅中介层晶圆上。金属互连线路直接蚀刻其中,将 Blackwell GPU 和 HBM 堆栈连接到每个系统和封装单元中,确保所有部件牢固固定。

然后进行组装,经过烘烤、成型和固化,打造出 Blackwell B200 超级芯片。每个 Blackwell 芯片都在 125 摄氏度的烤箱中进行压力测试,并在极限条件下运行数小时。机器人全天候工作,将超过 10,000 个元件拾取并放置到 Grace Blackwell 的 PCB 上。与此同时,定制的液冷铜块正在准备中,以保持芯片在最佳温度。在另一处工厂,ConnectX-7 SUPERNIC 被制造出来,以实现扩展通信,BlueField-3 DPU 则用于卸载和加速网络处理、存储和安全任务。

所有这些部分最终被精心集成到 GB200 计算托盘中。NVLINK 是 NVIDIA 发明的突破性高速连接技术,用于连接多个 GPU,实现大规模虚拟 GPU 的扩展。NVLINK 交换机托盘由 NVLINK 交换芯片构成,提供每秒 14.4 太字节的全互联带宽。NVLINK 主干形成定制的盲插背板,使用 5000 根铜缆将全部 72 个 Blackwell 或 144 个 GPU 芯片连接成一个巨型 GPU,提供每秒 130 太字节的全互联带宽——超过全球互联网的峰值流量。

来自世界各地的零部件被熟练的技术人员组装成机架规模的人工智能超级计算机。总共 120 万个组件,两英里的铜线、130 万亿个晶体管,重近两吨。Blackwell 不仅仅是一个技术奇迹。它是全球合作与创新力量的见证,推动着将塑造我们未来的发现和解决方案遍布各地。我们致力于帮助当代天才完成他们的毕生事业,迫不及待想看到你们带来的突破。

Grace Blackwell 系统全部投入生产。这真是一个奇迹。从技术角度来看,这简直是个奇迹,但能够组装这些 GB200 系统的供应链也功不可没。每台重达两吨,我们现在每周生产一千台系统。以前从未有人在如此规模上批量生产超级计算机。每一个机架本质上就是一台完整的超级计算机。仅在 2018 年,最大的 Volta 系统。2018 年的 CRS 超级计算机性能还不如其中一个机架。而那个系统的功耗是 10 兆瓦。这是 100 千瓦。所以从 2018 年到现在,代际之间的差异:我们确实将超级计算、人工智能超级计算提升到了一个全新的水平,我们现在正在大规模生产这些机械。

这仅仅是个开始。事实上,你们看到的只是一个系统:格蕾丝·布莱克韦尔。全世界都在谈论这一个系统,纷纷呼吁尽快部署它于此地:进入全球数据中心,用于训练、推理和生成式人工智能。然而,并非所有人,也并非所有数据中心都能应对这些液冷系统。一些数据中心需要企业级堆栈,能够运行 Linux Red Hat 或 Nutanix,或 VMware,以及来自 Dell EMC 的存储系统。日立、NetApp、VAST、Weka,如此多种不同的存储系统、如此多不同的 IT 系统,而这些系统的管理必须与传统 IT 系统保持一致。

我们有这么多新计算机需要投入生产管理。我很高兴地告诉大家,这些产品现在全部进入量产阶段。你们还没见过它们,它们正从货架上迅速被抢购一空。它们正从生产线快速下线,开始投产。DGX Spark 让您几乎可以在桌面上拥有 Grace Blackwell 系统。对于 Spark 来说,是桌面;对于 DGX Station 来说,是桌边。这样你在开发软件时就不必坐在超级计算机旁了,在开发你的人工智能时。但你希望架构完全相同。从架构角度来看,这些系统是完全相同的。从软件开发者的角度来看,界面完全一样。唯一的区别是规模和速度。

然后这边是所有的 x86 系统。全球的 IT 组织仍然偏爱 x86,并且在能够利用最先进的 AI 原生系统时,都会选择 x86。他们确实如此。在他们无法做到且希望整合进企业 IT 系统的地方,我们现在为他们提供了实现这一目标的能力。其中一个最重要的系统,也是我们花费最长时间构建的系统,因为软件和架构非常复杂:如何将原生 AI 架构引入并融合到传统企业 IT 系统中。

这是我们全新的 RTX 专业服务器。这是一台令人难以置信的系统。主板经过全面重新设计。女士们,先生们,Janine Paul。这块主板看起来非常简单,但在这块主板上有八个 SUPER-NIX 交换机,通过一颗每秒 200 吉比特的最先进网络芯片连接八个 GPU,这些 GPU 是 Blackwell RTX Pro 6000。全新产品,刚刚进入生产阶段。八个这样的装入一台服务器。那么,它有什么特别之处?这台服务器是世界上唯一一台能够运行世界上所有已写内容以及 NVIDIA 所有开发成果的服务器。它运行人工智能、Omniverse 和用于视频游戏的 RTX;它运行 Windows,运行 Linux,运行 Kubernetes;它在 VMware 中运行 Kubernetes,基本上运行所有东西。

如果你想将 Windows 桌面从一台电脑流式传输到你的远程设备,没问题。如果你想流式传输 Omniverse,也没问题。如果你想运行你的机器人系统,没问题。只是这台机器的质量保证简直疯狂。它运行的应用基本上是通用的:世界上开发的所有东西都应该能在这里运行,包括,如果你是视频游戏玩家,包括《孤岛危机》。所以如果你能运行《孤岛危机》,你就能运行任何东西。这是 RTX 专业服务器:全新的企业系统。

所以某些事情正在发生变化。我们知道人工智能是一项极其重要的技术。我们现在确凿无疑地知道,人工智能是一种可能带来革命性变革的软件:改变每一个行业。它能做到这些惊人的事情。这是我们所知道的。我们也知道,处理人工智能的方式与我们过去处理手写软件的方式根本不同。机器学习软件的开发方式不同,运行方式也不同。系统的架构,软件的架构、网络的工作方式、访问存储的方式,都完全不同。

所以我们知道这项技术可以做不同的事情:令人难以置信的事情。它是智能的。我们也知道它的开发方式根本不同:它需要新的计算机。真正有趣的是,这对各国意味着什么?对企业、对社会又意味着什么?这是我们近十年前就注意到的一个现象,而现在每个人都开始意识到这一点了:事实上,这些人工智能数据中心根本就不是数据中心。它们不是传统意义上的数据中心,用来存储你可以检索的文件。这些数据中心并不存储我们的文件。它只有一个任务,且仅此一个任务:那就是生成智能标记,即人工智能的生成。

这些人工智能工厂,看起来像数据中心,因为里面有大量计算机。但这就是一切崩溃的地方。它的设计方式、制造规模或规模化:设计和建造方式,以及它的使用、协调和配置方式;如何运营它,你如何看待它。例如,没有人真正把他们的数据中心当作一个创收设施来考虑。我说了一句话,大家都说,“是的,我觉得你说得对。”没人会把数据中心当作一个创收设施来考虑。但他们把自己的工厂,汽车工厂,看作是创收设施:他们迫不及待地想建另一座工厂,因为每当你建一座工厂,收入很快就会增长。你可以为更多人创造更多东西。

这些想法正是这些人工智能工厂中的想法。它们是创收设施,旨在制造Token。这些Token可以被重新构造成多种行业的生产性智能,因此人工智能工厂现在已成为一个国家基础设施的一部分。这就是为什么你看到我奔走于世界各地,与各国元首会谈的原因:因为他们都希望拥有人工智能工厂。他们都希望人工智能成为他们基础设施的一部分。他们希望人工智能成为他们的一个增长型制造业。这确实意义深远,我认为我们正在讨论的是:因此,催生了一场新的工业革命:因为每一个行业都受到了影响,同时也诞生了一个新兴产业。

正如电力最初被描述和展示为一项技术时,后来发展成为一个新兴产业一样:它被理解为一项技术,但后来我们意识到它也是一个庞大的产业。然后是信息产业,我们现在称之为互联网。这两者都影响了许多行业,成为基础设施的一部分。我们现在有了一个新的产业——人工智能产业:它现在成为了被称为智能基础设施的新基础设施的一部分。每个国家、每个社会、每家公司都将依赖它。

你可以看到它的规模。这是一个被广泛讨论的话题。这是星际之门。这看起来不像数据中心。更像是一座工厂。这是一个千兆瓦。它将容纳大约 50 万个 GPU 芯片,产生巨大的智能,供所有人使用。欧洲现在已经意识到这些人工智能工厂的重要性。人工智能基础设施的重要性,我非常高兴看到这里有如此多的活动。

这是欧洲电信公司与 NVIDIA 合作建设人工智能基础设施。这是欧洲云服务提供商与 NVIDIA 合作建设人工智能基础设施。这就是欧洲超级计算中心正在与 NVIDIA 合作建设下一代人工智能超级计算机和基础设施。这仅仅是个开始。这还不包括即将在公共云中推出的内容。这还不包括公共云。所以这是由欧洲公司为欧洲市场本土打造的人工智能基础设施。此外,还有 20 个正在规划中的人工智能工厂,其中几个是千兆瓦级的超级工厂。总共仅用两年时间,我们将在欧洲将人工智能计算能力提升 10 倍。因此,研究人员、初创企业,你们的人工智能短缺、你们的 GPU 短缺很快就会得到解决。它正向你走来。

现在,我们正在与每个国家合作,发展他们的生态系统。因此,我们正在七个不同的国家建立人工智能技术中心。这些人工智能技术中心的目标是:第一,进行合作研究,与初创企业合作;同时构建生态系统。让我向你展示一个生态系统的样子。我昨天刚刚在英国。这些生态系统都是建立在 NVIDIA 技术栈之上的。例如,正如你所知,每一台 NVIDIA 设备:NVIDIA 是唯一在所有云平台上可用的 AI 架构。除了 x86 之外,它是唯一无处不在的计算架构。

我们与所有云服务提供商合作。我们加速全球最重要软件开发商的应用:包括欧洲的西门子、Cadence、红帽、ServiceNow。我们重新定义了计算堆栈。正如你所知,计算不仅仅是计算机:而是计算、网络和存储的结合。每一层,每一个堆栈都被重新定义了。与思科的合作非常出色,他们昨天在会议上宣布了基于 NVIDIA 的全新型号。戴尔,出色的合作伙伴,NetApp,Nutanix,还有一大批优秀的合作伙伴。

正如我之前提到的,软件开发的方式已经发生了根本性的变化。现在不再只是编写 C 程序,编译 C 程序、交付 C 程序。现在是 DevOps、MLOps、AIOps。整个生态系统正在被重新构建,我们在各地都有生态合作伙伴。当然,还有解决方案集成商和提供商,他们可以帮助每家公司整合这些能力。

在英国,我们有一些特别的合作公司:从研究人员到开发者,再到合作伙伴,这些真正了不起的公司帮助我们提升本地经济和本地人才的技能;使用这些技术的企业,当然还有云服务提供商。我们在英国、德国、意大利和法国有很棒的合作伙伴。

我想特别强调一个合作伙伴:施耐德。甚至建造这些人工智能工厂,我们现在都是数字化建造的。我们通过数字化设计它们,我们通过数字化制造它们;我们通过数字化操作或优化它们,最终我们甚至会在数字孪生中完全数字化地优化和操作它们。

这些人工智能工厂非常昂贵,有时高达 500 亿美元,未来将达到 1000 亿美元。如果该工厂的利用率未达到最大化,工厂所有者将面临巨大的成本压力。因此,我们需要在任何可能的地方实现数字化并使用人工智能:将一切都放入元宇宙,以便我们能够获得直接且持续的遥测数据。我们今天宣布了一项伟大的合作伙伴关系:一家年轻的公司,一位我非常喜欢的首席执行官,他正试图打造一家欧洲的人工智能公司。这家公司的名字叫 Mistral。

今天我们宣布,我们将在这里共同打造一个 AI 云平台,用于部署他们的模型,以及为 AI 生态系统中的其他初创企业提供 AI 应用,使他们能够使用 Mistral 模型或任何他们喜欢的模型。所以 Mistral 和我们将合作在这里建设一个非常庞大的人工智能云平台。

人工智能技术正以光速发展。我这里展示的是左侧的专有模型,正以光速前进。然而,开源模型也在以光速发展。仅落后几个月。无论是 Mistral、LLaMA,还是即将推出的 DeepSeek R1、R2:第一季度,这些模型都非常出色。每一个都非常出色。因此,过去几年里,我们致力于汇聚世界顶尖的人工智能研究人员,进一步提升这些人工智能模型的性能。我们称之为 Nemotron。

基本上,我们所做的是采用开源模型(当然,这些模型无一例外都是基于 NVIDIA 构建的),然后我们进行后期训练。我们可能会进行神经网络架构搜索。我们可能会进行神经网络架构搜索,提供更优质的数据。使用强化学习技术,增强这些模型,赋予其推理能力:扩展上下文,使其在与你互动之前能够学习和阅读更多内容。大多数这些模型的上下文相对较短:我们希望它具备强大的上下文处理能力,因为我们想在企业应用中使用它,而我们希望进行的对话内容并不在互联网上。这些内容存在于我们公司内部,因此我们必须为它加载大量的上下文信息。

所有这些能力随后被打包成一个可下载的 NIM。你可以访问 NVIDIA 的网站,直接下载一个 API:一个最先进的 AI 模型,放置在你喜欢的任何地方,然后我们会大幅提升它的性能。这是 Nemotron 相较于 LLaMA 的改进示例。这是通过我们的后训练能力改进的 LLaMA 8B、70B、405B 模型。推理能力的扩展,我们提供的所有数据极大地增强了它。我们将一代又一代地持续进行下去。

所以,对于所有使用 Nemotron 的人来说,你们将会知道未来还有一大批其他模型。而且它们本来就是开源的,所以如果你想从开源模型开始,那太棒了。如果你想从 Nemotron 模型开始,那太棒了。Nemotron 模型的性能非常出色。在一次又一次的基准测试中,Nemotron 的表现始终位居榜首。所以现在你知道,你可以使用一个依然开放的增强型开放模型。那是领导者榜单的顶端,你知道 NVIDIA 致力于此:所以我会一直做到生命的尽头。

这个策略太棒了,以至于区域模型制造商——欧洲各地的模型构建者们现在都认识到这个策略的美妙之处:我们正在合作,共同调整和提升每一个区域语言的模型。您的数据属于您。它是您民族的历史,是您民族的知识。你们民族的文化。它属于你们,对于许多公司来说:以 NVIDIA 为例,我们的大部分数据都存储在内部。33 年的数据。我今天早上在查资料,西门子:180 年的数据,其中一些记录在纸草上。Roland Busch 来了。我,我想捉弄一下 Roland Busch,我亲爱的朋友。所以,你得先把它数字化,AI 才能学习。数据属于你。你应该使用这些数据,使用像 Limotron 这样的开源模型和我们提供的所有工具套件,这样你就可以为自己的用途进行增强。

我们还宣布,我们与 Perplexity 建立了良好的合作关系。Perplexity 是一款推理搜索引擎。是的。我使用的三个模型是 ChatGPT、Gemini Pro 和 Perplexity。这三个模型我交替使用,Perplexity 非常出色。我们今天宣布,Perplexity 将整合这些区域模型,直接接入 Perplexity,让你能够用你的语言提问并获得答案:以你所在国家的文化和感知方式,明白了吗?所以是 Perplexity 区域模型。

Agent智能体是一个非常重要的事情。正如你所知,起初,使用预训练模型时,人们说,“但它会产生幻觉。它会编造内容。”完全正确。“它无法获取最新的新闻和数据信息。”完全正确。“它在没有推理分析问题的情况下就放弃了。”“就好像每一个答案都必须从过去记忆中获得。”完全正确,为什么它要试图弄清楚如何加法或者计算计数数字并相加?为什么它不直接用计算器?

因此,所有与智能相关的能力——每个人都能提出批评,但这完全正确,因为大家大致了解智能是如何运作的。但这些技术正在全球范围内被开发建设:它们全部汇聚在一起,从增强检索生成到网络搜索,再到多模态理解,这样你就可以阅读 PDF 文件、访问网站,查看图片和文字、听视频,观看视频,然后将所有这些理解融入你的语境中。你现在当然也可以理解几乎任何事物的提示。你甚至可以说,“我要问你一个问题,但从这张图片开始。”我可以说:“从这个开始,先从这段文字开始再回答”,回答问题或执行我要求你做的事。”然后它会自行推理、计划和自我评估。

所有这些能力现在都已整合,你可以看到它们在市场上随处可见。具代理性的人工智能是真实存在的。自主智能是一次从一次性人工智能迈出的巨大飞跃。一次性人工智能是必要的基础,它让我们能够教会智能体如何成为智能体。你需要具备一定的知识基础和推理能力,才能具备可教性。预训练关乎人工智能的可教性。后训练、强化学习、监督学习、人类示范、上下文提供、生成式人工智能,所有这些正在融合,形成如今的智能代理人工智能。

让我们来看一个例子。让我给你展示点东西。它基于 Perplexity 构建,非常酷。

人工智能代理是数字助理。基于提示,它们进行推理并将问题分解为多步骤计划。它们使用合适的工具,与其他代理协作,并利用记忆中的上下文在 NVIDIA 加速系统上正确执行任务。一切从一个简单的提示开始。让我们请 Perplexity 帮忙在巴黎开一家餐车。

首先,Perplexity 代理通过提示进行推理并制定计划,然后调用其他代理使用多种工具帮助解决每个步骤。市场研究员阅读评论和报告,以发现趋势并分析竞争市场。基于这项研究,概念设计师探索当地食材并提出包含准备时间估算的菜单,并研究调色板,生成品牌识别。然后,财务规划师使用蒙特卡洛模拟来预测盈利能力和增长轨迹。一名运营策划人员制定了包含每个细节的发射时间表:从购买设备到获取正确的许可。市场专员制定了包含社交媒体活动的发射计划,甚至编写了一个包含地图的互动网站、菜单和在线订购。

每个代理的工作汇集成最终的方案提案。一切都始于一个简单的提示。一个提示,就像那样的一个提示,在原始聊天机器人中,可能只会生成几百个标记。但现在只需一个提示,交给代理去解决问题,它生成的标记数量必定多出一万倍。这就是为什么需要 Grace-Blackwell 的原因:这就是为什么我们需要性能以及系统在代际之间有更大提升的原因。这就是 Perplexity 构建他们的智能代理的方式。每家公司都必须构建自己的智能代理。

你将会从 OpenAI、Gemini、微软 Copilot、Perplexity、Mistral 等平台招聘代理。也会有为你量身打造的代理。他们可能会帮助你规划一次假期,或者你知道,去做一些研究,诸如此类。然而,如果你想创办一家公司,你将需要专用的代理和专用的工具,以及使用专用的工具和专用的技能。那么问题是,你如何构建这些代理?

因此,我们为你创建了一个平台。我们创建了一个框架和一套工具供您使用,还有一大批合作伙伴帮助您实现目标。这一切从最底层开始,最底层:我之前提到的推理模型能力。NVIDIA 的 NeMo、NeMotron 推理大型语言模型是世界一流的。我们有 NeMo Retriever,这是一款多模态搜索引擎。语义搜索引擎。令人难以置信。我们构建了一个蓝图,一个可运行的演示,基本上是一个通用智能体。我们称之为 IQ,AI,AIQ。

最上层,我们有一套工具,允许你引入一个代理:一个通用代理,整理数据来教它;评估它,设定安全边界,监督训练它,使用强化学习直到部署;保持安全,确保保障。这套工具包已经集成,这些库也已集成到 AIOps 生态系统中。你也可以直接从我们的网站下载。但它主要集成在 AIOps 生态系统中。基于此,你可以创建自己的专属代理。

许多公司都在这样做。这是思科,他们昨天宣布,“我们正在共同构建用于安全的人工智能平台。”现在,看看这个。人工智能代理,而不是一个模型完成所有这些惊人的任务:它是一个模型集合,一个系统。它是一个由大型人工智能语言模型组成的系统。其中一些经过专门优化,适用于某些特定类型的任务。检索,正如我提到的,使用计算机执行技能。你不想把所有这些东西捆绑成一个庞大的,你知道的,人工智能整体,而是将其拆分成小部分,然后可以随着时间推移部署持续集成/持续交付。这是思科的一个例子。

现在的问题是,如何部署这个?因为正如我之前提到的,NVIDIA 的计算资源存在于公共云中。有区域云,我们称之为 NCP。这里,比如说 Mistral。你可能因为安全需求和数据原因拥有私有云。数据隐私要求。你甚至可能会决定桌子上放些什么东西。那么问题是,你如何运行所有这些?有时它们位于不同的地方,因为这些都是微服务:这些是能够相互交流的人工智能,它们显然可以通过网络相互通信。

那么,如何部署所有这些微服务呢?现在,我们有了一个很棒的系统。我很高兴能为大家宣布这一消息。这就是我们的 DGX Lepton。DGX Lepton,你现在看到的是各种不同的云。这里是 Lambda 云,AWS 云,你知道的。这是你自己的开发者机器,你自己的系统:可以是一台 DGX 工作站。NeBS、Yotta、Nscale。可能是 AWS,也可能是 GCP。NVIDIA 的架构无处不在。

因此,您可以决定在哪里运行您的模型。你通过一个超级云来部署它,所以它是一个云中之云。一旦你让它运行起来,一旦你将这些 NIMs 部署到 Lepton 中,它就会在你选择的各种云上托管和运行。一种模型架构,一次部署,随处运行。你甚至可以在这台小小的机器上运行它。你知道,这个 DGX Spark,它是, 它是……这是,现在是咖啡时间吗?看看这个。

这台电梯有 2000 马力。这是我最喜欢的小机器。DGX Spark。第一个……人工智能超级计算机,我们在 2016 年建造了一台人工智能超级计算机。它被称为 DGX-1。它是我刚才提到的所有技术的第一个版本。八个 Volta GPU 通过 NVLink 互联。我们花费了数十亿美元来建造它,而在我们宣布它的那一天:DGX-1,没有客户。没有兴趣,没有掌声。百分之百的困惑。为什么有人会造那样的电脑?它能运行 Windows 吗?不能。

所以我们还是造了它。谢天谢地,是一家年轻的公司,一家初创企业:旧金山的一家非营利初创公司看到这台电脑时非常高兴,他们说:“我们能要一台吗?”我当时想:“天哪,我们卖出一台了。”但后来我发现那是一家非营利组织。但是它……我把一台电脑,呃——一台 DGX-1 放进了我的车里,然后我开车把它带到了旧金山。那家公司的名字叫 OpenAI。

想象一下你拥有 Lepton。它就在你的浏览器中,你拥有Helm Chart,你开发了一个人工智能代理,想在这里运行它:其中一部分你想在 AWS 上运行,还有一部分你想在其他地方运行,在某个区域云中。你使用 Lepton,部署你的 Helm Chart,它就神奇地出现在这里。如果你想在这里运行它,直到完成并准备好部署到云端。但美妙之处在于,这一架构基于 Grace Blackwell。GB10 对比 GB200 对比 GB300,以及所有这些不同版本的... 但这一架构正是 Grace Blackwell。

所以我们正在为 Lepton 做这件事,但接下来:Hugging Face 和 NVIDIA 已经将 Lepton 连接在一起。因此,每当你在 Hugging Face 上训练模型时,如果你想将其部署到 Lepton:并直接部署到 Spark,也没问题。只需轻轻一击。无论你是在训练还是推理,我们现在都已接入 Hugging Face,Lepton 将帮助你决定部署位置。让我们来看看。开发者需要轻松且可靠地访问计算资源,以跟上他们的工作节奏:无论他们身处何地,无论他们在构建什么。

DGX Cloud Lepton 提供按需访问跨云的全球 GPU 网络:地区和合作伙伴,如 YOTA 和 Nebious。多云 GPU 集群通过单一统一界面进行管理。资源配置速度快。开发者可以快速扩展节点数量,无需复杂设置,使用预集成工具和训练就绪的基础设施立即开始训练。进度实时监控。GPU 性能、收敛性和吞吐量尽在掌握。您可以直接在控制台内测试您的微调模型。

DGX Cloud Lepton 可以在多个云或区域部署 NIM 端点或您的模型,实现快速分布式推理。就像网约车应用连接乘客和司机一样,DGX Cloud Lepton 连接开发者与 GPU 计算能力:驱动虚拟全球 AI 工厂。DGX Cloud Lepton。

这是SAP的做法,他们正在 NVIDIA 上构建一个人工智能平台。Sana 正在 NVIDIA 上构建一个人工智能业务应用自动化系统。DeepL 正在基于 NVIDIA AI 构建他们的语言框架和平台。Photoroom,一款视频编辑和人工智能编辑平台:他们的平台基于 NVIDIA 构建。这是 KODO,我记得以前是,应该是 Codium,基于 NVIDIA 构建的令人难以置信的编码代理。这是 Iola,一个基于 NVIDIA 构建的语音平台。这是一个临床试验平台:全球最大的基于 NVIDIA 的临床试验自动化平台。

所以所有这些,基本上都是建立在同一个理念之上:NIMS,将其封装并打包在一个虚拟容器中,您可以在任何地方部署。Nemotron 大型语言模型,或其他大型语言模型:比如 Mistral 或其他。我们随后整合了涵盖 AI 整个生命周期的库:一个人工智能代理。你对待人工智能代理的方式有点像对待数字员工。所以你的 IT 部门需要对他们进行入职培训:微调它们,训练它们,评估它们,保持它们的安全防护;保持它们的安全,并不断改进它们。整个框架平台就叫做 Nemo,所有这些现在都被整合到全球一个又一个的应用框架中。这只是其中几个的例子。

现在我们让您能够在任何地方部署它们。如果你想在云端部署它:你在云端有 GB2 00s。如果你想在本地部署,因为你有VMware 或 Red Hat Linux 或者Nutanix,如果你想在本地的虚拟机上部署它:你可以这么做。如果你想把它部署成私有云:你可以做到这一点。你可以将它全部部署在你的 DGX Spark 或 DGX Station 上。所以 Lepton 会帮助你完成所有这些。

我们来谈谈工业人工智能。这是1992年的Synapse I,它运行神经网络的速度比当时的CPU快8000倍。这非常不可思议。这就是世界上最强的人工智能计算机。西门子在首席执行官罗兰·布什的推动下,实现了跨越式发展:通过融合欧洲工业底蕴与人工智能技术,这家企业成功跨越上一轮信息技术革命周期,引领了工业人工智能革命。

我们与西门子的合作覆盖全产业链:从产品设计、仿真优化到工厂数字孪生构建,再到生产运营中的人工智能应用,形成完整的技术闭环。这一合作模式印证了欧洲工业能力的独特优势——当人工智能技术突破传统软件局限,进化为具备深度学习能力的智能系统时,它正以前所未有的方式重塑各行业格局。这款智能软件已展现出改变产业生态的潜力,为制造业转型升级提供了核心驱动力。

我们正与多家企业合作推进工业人工智能开发。宝马正利用元宇宙技术构建下一代工厂,其核心依托是Omniverse平台上的数字孪生系统。

梅赛德斯-奔驰、舍弗勒等企业已在该平台完成工厂及仓库的数字孪生建模。法国某火车站也通过Omniverse构建了数字化镜像。丰田同样在平台中创建了仓库数字孪生。借助这些虚拟模型,企业可在绿地或棕地项目中实现全流程数字化设计、规划与优化,提前验证方案可行性,避免实际部署中的资源浪费。

数字孪生技术之所以强调高保真度与物理规律遵循,关键在于其为机器人训练提供了核心支撑。机器人依赖Omniverse生成的光子数据构建感知系统,通过与虚拟环境的交互验证操作准确性,并持续优化行为策略。这种"数字-物理"闭环训练模式,要求数字孪生必须具备视觉真实性与行为可信度。

值得一提的是,我们正与欧洲合作伙伴共建全球首个工业人工智能云平台。该平台将整合聚变反应堆等复杂系统的数字孪生,为下一代能源技术研发提供关键基础设施——正如业界共识,没有人工智能赋能,聚变能商业化进程将难以突破。

工业人工智能云汇聚了海量计算资源,这些云端计算机在性能与安全性方面的要求截然不同。我将在周五详细介绍相关内容,今天先简要提及。

该工业云平台将应用于设计与仿真领域。以虚拟风洞为例,用户只需将车辆模型“驶入”数字风洞(即风洞的数字孪生),即可实时观察车辆表现,开门、开窗、调整设计等操作均能即时反馈。这种实时数字孪生技术同样适用于数字工厂的构建,实现从设计到生产的无缝衔接。

NVIDIA已深耕欧洲市场多年,自工作站与产品数字化(CAD革命)兴起时便已涉足,历经CAE革命,如今正引领数字孪生革命。欧洲拥有约两万亿美元的工业生态系统,NVIDIA有幸参与其中并提供技术支持。

当前,一场新的革命正在酝酿。未来,所有可移动设备都将集成人工智能,成为智能机器人,而汽车领域无疑是这一趋势的先锋。NVIDIA正打造用于训练模型及Omniverse数字孪生的人工智能超级计算机,同时也为机器人本身提供专用计算平台。无论是云端还是车载环境,NVIDIA均提供完整的技术栈,包括计算机硬件与操作系统,且均针对不同场景进行了优化。

这些计算机需具备高速处理能力与丰富的传感器接口,同时满足严格的功能安全标准,确保在任何情况下均不会完全失效。NVIDIA的人工智能模型,特别是基于变换器的生成式推理模型,能够接收传感器输入(如用户指令或像素数据),并生成路径规划等输出,为自动驾驶与机器人控制提供核心支持。NVIDIA的自动驾驶团队(AV团队)实力卓越,连续两年在CVPR端到端自动驾驶汽车挑战赛中夺冠,今年再次问鼎。

自动驾驶车辆的运行环境充满不确定性,安全至关重要。NVIDIA DRIVE基于HALO安全系统构建,支持开发者使用多样化的软件堆栈、传感器与冗余计算机构建安全的自动驾驶车辆。安全自动驾驶的实现依赖于大量多样化的训练数据,但现实世界数据有限。为此,开发者利用NVIDIA Omniverse与Cosmos重建现实世界,生成逼真的合成训练数据,提升模型的泛化能力。该模型能够感知并推理环境,预测未来结果,并生成运动计划。同时,独立的经典堆栈并行运行,安全护栏监控系统性能,确保在异常情况下及时介入。传感器与计算架构内置冗余设计,每个传感器均连接至冗余计算机,确保故障时车辆仍能安全运行。在关键故障情况下,系统可执行最低风险操作,如靠边停车。

NVIDIA DRIVE使全球开发者能够将HALOS集成到产品中,打造下一代安全的自动驾驶汽车。随着自动驾驶技术的普及,未来将有十亿辆汽车上路,每年行驶一万亿英里。这一巨大机遇正吸引着全球众多大型企业的参与。在自动驾驶领域,安全始终是核心。NVIDIA的HALOS系统从芯片架构设计到软件开发方法论,均经过严格测试与验证,确保系统的安全性与可靠性。该系统是全球首款完全由软件定义的、面向自动驾驶汽车的增强现实人工智能驱动堆栈。NVIDIA在该领域已深耕近十年,技术实力享誉全球。

汽车行业的技术变革正加速向机器人领域延伸。当人工智能具备视频生成、感知推理及多模态内容创作能力时,其技术边界已拓展至机器人领域。NVIDIA正致力于开发具备教学学习能力的人形智能体,其技术架构与NVIDIA Nemo工具包高度契合,均基于三层堆栈设计理念。最新推出的Thor计算机开发套件是这一理念的集大成者,专为机器人设计,外观紧凑且功能强大。该开发套件可直接部署于桌面环境,搭载自主研发的Thor芯片,堪称技术奇迹。其内置的机器人操作系统实时接收多传感器数据流,通过预训练的变换器模型进行智能解析,输出精确的运动控制指令,涵盖飞行轨迹规划、手臂关节操控、手指关节微动作控制及腿部关节动态协调,形成完整的运动控制闭环。这一技术突破将推动类人机器人从科幻走向现实,有望成为人类历史上规模最大的产业之一。然而,当前机器人普及仍面临编程复杂性的挑战。高昂的部署成本与专业技术门槛限制了中小型企业的应用。NVIDIA正致力于开发“可教导”的机器人,通过交互学习直接理解人类意图,打破技术壁垒,让自动化技术惠及更多领域。

现在,人形机器人面临的最大挑战是训练所需的数据量非常难以获取。解决这个问题的方法是回到Omniverse——一个遵循物理定律的数字孪生世界。这是我们正在做的工作。我们开发了计算机来模拟,来训练、模拟机器人。如今,全球范围内涌现出大量人形机器人企业,它们敏锐捕捉到这一新兴领域的变革机遇,正以惊人速度推进技术研发。这些智能体采用独特的“虚拟 - 现实”协同学习模式:在 Omniverse 构建的物理仿真环境中,机器人通过海量符合物理规律的交互实验积累经验,再将优化后的算法模型迁移至真实物理世界。我们近期与迪士尼研究院、DeepMind 达成重大合作,三方将联合打造全球最复杂的多物理场耦合模拟系统。这一系统将突破传统仿真技术的局限,实现刚体动力学、流体力学、柔性体动力学等多物理场的实时交互,为人形机器人处理复杂场景任务提供更真实的训练环境。

下一波人工智能浪潮已经到来。Grek机器人完美诠释了当前技术条件下机器人领域的突破性进展——通过教学训练与模拟实践的结合,这类智能体已展现出令人惊叹的实体操作能力与信息处理能力。我们将其统称为"智能代理",它们标志着人工智能新纪元的开启。

这场变革正引发推理工作负载的指数级爆发:全球AI推理用户规模已从800万量级激增至8亿规模,短短数年间实现百倍跨越;单个任务的令牌生成量从数百量级突破至数千量级,人机交互深度与复杂度呈现质的飞跃。面对这种指数级增长的需求,我们亟需突破传统计算架构的桎梏。

正是在这个关键节点,Blackwell架构应运而生。这款专为认知推理设计的计算引擎,将重新定义“思考机器”的内涵——它并非简单堆砌算力的产物,而是通过创新的计算范式,实现了对复杂推理链路的深度优化。在全球AI应用正从感知智能迈向认知智能的临界点,Blackwell架构的诞生恰逢其时,为人类构建真正意义上的“思考机器”奠定了硬件基石。

这些基于Blackwell架构的设备将被部署于新型数据中心。这些数据中心本质上可视为人工智能工厂,专为生成Token而设计。这些Token将成为驱动AI应用的关键要素。

我很高兴看到欧洲正在全力投入人工智能,这里建设的人工智能基础设施将在未来几年内增加一个数量级。

来源:划重点KeyPoints

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部