英伟达在本次吹风会上,驳斥了 Blackwell 推迟上市的消息,并分享了更多数据中心 Goliath 的相关信息。
英伟达在吹风会上演示了 Blackwell 在其一个数据中心的运行情况,并强调 Blackwell 正在按计划推进,并将于今年晚些时候向客户发货。
英伟达表示 Blackwell 不仅仅是一款芯片,它还是一个平台。就像 Hopper 一样,Blackwell 包含面向数据中心、云计算和人工智能客户的大量设计,每个 Blackwell 产品都由不同的芯片组成。
英伟达还分享了 Blackwell 系列产品中各种桥架的全新图片。这些是首次分享的 Blackwell 桥架图片,展示了设计下一代数据中心平台所需的大量专业工程技术。
Blackwell 旨在满足现代人工智能的需求,并为大型语言模型(如 Meta 的 405B Llama-3.1)提供出色的性能。随着 LLMs 的规模越来越大,参数也越来越多,数据中心将需要更多的计算和更低的延迟。
多 GPU 推理方法是在多个 GPU 上进行计算,以获得低延迟和高吞吐量,但采用多 GPU 路线也有其复杂性。多 GPU 环境中的每个 GPU 都必须将计算结果发送给每一层的其他 GPU,这就需要高带宽的 GPU 对 GPU 通信。
多 GPU 推理方法是在多个 GPU 上进行计算,以获得低延迟和高吞吐量,但采用多 GPU 路线也有其复杂性。多 GPU 环境中的每个 GPU 都必须将计算结果发送给每一层的其他 GPU,这就需要高带宽的 GPU 对 GPU 通信。
该芯片通过 72 个端口提供 7.2 TB/s 的全对全双向带宽,网内计算能力为 3.6 TFLOPs。NVLINK 交换机托盘配有两个这样的交换机,提供高达 14.4 TB/s 的总带宽。
英伟达采用水冷散热,来提升性能和效率。GB200、Grace Blackwell GB200 和 B200 系统将采用这些新的液冷解决方案,可将数据中心设施的电力成本最多降低 28%。
英伟达™(NVIDIA®)还分享了全球首张使用 FP4 计算生成的人工智能图像。图中显示,FP4 量化模型生成的 4 位兔子图像与 FP16 模型非常相似,但速度更快。
该图像由 MLPerf 在稳定扩散中使用 Blackwell 制作而成。现在,降低精度(从 FP16 到 FP4)所面临的挑战是会损失一些精度。
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。