本月早一点的时候,英伟达遭遇了罕见的坏消息,当时有报道称,由于设计缺陷,该公司备受期待的“Blackwell” GPU 加速器可能会延迟三个月之久。然而,英伟达发言人表示,一切都在按计划进行,一些供应商表示,一切都没改变,而另一些供应商则表示,出现了一些正常的延误。
业内人士预计,当英伟达于下周三公布其2025财年第二季度财务业绩时,用户将对Blackwell的情况有更多的了解。
据悉,Blackwell 芯片——B100、B200 和 GB200——将成为下周在加州斯坦福大学举行的今年 Hot Chips 会议的一个重点,英伟达将介绍其架构,详细的介绍一些新的创新,概述在设计芯片时使用 AI 的情况,并讨论用于运行这些日渐增长的 AI 工作负载的数据中心中的液体冷却研究。据英伟达加速计算产品总监戴夫萨尔瓦多称,该公司还将展示已经在其一个数据中心运行的 Blackwell 芯片。
“当你想到英伟达以及我们构建的平台时,GPU、网络甚至我们的CPU都只是开始,”他说,“我们正在做系统级和数据中心级工程,以构建这些能够真正走出去并解决那些真正棘手的生成式 AI 挑战的系统与平台。我们已看到模型的规模跟着时间的推移而增长,而且大多数生成式 AI 应用程序都需要实时运行,对推理的要求在过去几年中飞速增加。实时大型语言模型推理需要多块 GPU,在不远的将来还需要多台服务器节点。”
英伟达在今年 3 月的 GTC 2024 大会上推出了备受期待的 Blackwell 架构,超大规模厂商和原始设备制造商也迅速与之签约。该公司将其目标直指快速扩张的生成式AI领域,该领域的大型语言模型(LLM)将变得更庞大,Meta 的 Llama 3.1 就是证明,该模型于 6 月份推出,配备了一个拥有 4050 亿个参数的模型。Salvator 说,随着 LLM 慢慢的变大,对实时推理的需求依然存在,它们将需要更加多的计算和更低的延迟,这就需要一种平台方法。
他说:“与大多数其他 LLMS 一样,将由该模型提供支持的服务有望实时运行。要做到这一点,你需要多个 GPU。所面临的挑战是,如何在GPU的高性能、GPU的高利用率以及向使用这一些人工智能驱动的服务的最终用户更好的提供良好的使用者真实的体验之间取得巨大的平衡。”
通过 Blackwell,英伟达将每个交换机的带宽提高了一倍,从 900 GB/秒提高到 1.8 TB/秒。该公司的可扩展分层聚合和缩减协议(SHARP)技术 将更多的计算带入实际存在于交换机中的系统。它可以让我们从 GPU 上进行一些卸载,以帮助加速性能,还可以在 NVLink 结构上帮助平缓网络流量。这些都是我们在平台层面继续推动的创新。
使用 FP4,模型能够正常的使用更少的内存,性能甚至优于 Hopper GPU 中的 FP8。
在液体冷却方面,英伟达将介绍一种温水直接芯片到芯片的方法,这种办法能够将数据中心的用电量降低 28%。
Salvator说:“这种方法有趣的地方在于它的一些好处,这中间还包括提高冷却效率、降低经营成本、延长服务器寿命,以及将捕获的热量重新用于其他用途的可能性。它肯定有助于提高冷却效率。其中一个方法就是,顾名思义,这个系统实际上不使用制冷机。如果你想一想冰箱是如何工作的,就会发现它工作得很好。但是,它也需要电力。通过采用这种使用温水的解决方案,我们就不必使用制冷机,这就为我们节省了一些能源,降低了经营成本。”
另一个主题是Nvidia如何利用人工智能,利用 Verilog 设计其人工智能芯片,Verilog 是一种用代码描述电路的硬件描述语言,至今已使用了四十年。英伟达正在通过一个名为 VerilogCoder 的自主 Verilog 代理提供帮助。
他说:“我们的研究人员开发了一个大型语言模型,可用于加速创建描述我们系统的 Verilog 代码。我们将在未来几代产品中使用它来帮助建立这些代码。它可以做很多事情。它能够在一定程度上帮助加快设计和验证过程。它可以加快设计的手工操作,并从根本上实现许多任务的自动化。”