英伟达GTC会议来袭！新一代Blackwell GPU架构面世

Hawk Insight

2024-03-19 12:19:19

2.64W

当地时间周一（3月18日），备受瞩目的英伟达年度GTC会议在加州圣何塞拉开帷幕。在大会上，英伟达一次性介绍了多个公司的最新成果。

当地时间周一（3月18日），备受瞩目的英伟达年度GTC会议在加州圣何塞拉开帷幕。

时隔五年，英伟达再次线下举办起了年度GTC会议，故外界对此次大会期待值很高。英伟达方面也没有让大家失望，一次性介绍了多个公司的最新成果。

新一代Blackwell GPU架构

在此次大会上，最引人瞩目的就是英伟达推出的新一代Blackwell GPU架构。

官方介绍称，Blackwell可使全球机构都能够在万亿参数的大语言模型（LLM）上构建和运行实时生成式AI，其成本和能耗较上一代产品降低多达25倍。

Blackwell GPU

官方表示，Blackwell GPU架构搭载六项变革性的加速计算技术：

●全球最强大的芯片：Blackwell架构GPU具有2,080亿个晶体管，采用台积电4纳米（nm）工艺制造，通过10TB/s的片间互联，将GPU裸片连接成一块统一的GPU。

●第二代Transformer引擎：得益于全新微张量缩放支持，以及集成于英伟达TensorRT™-LLM和NeMo Megatron框架中的英伟达先进动态范围管理算法，Blackwell将在新型4位浮点AI推理能力下实现算力和模型大小翻倍。

●第五代NVLink：为了提升万亿级参数模型和混合专家AI模型的性能，第五代NVLink为每块GPU提供突破性的1.8TB/s双向吞吐量，确保多达576块GPU之间的无缝高速通信，可以满足当今最复杂LLM的需求。

●RAS引擎：采用Blackwell架构的GPU包含一个用于保障可靠性、可用性和可维护性的专用引擎。此外，Blackwell架构还增加了多项芯片级功能，能够利用AI预防性维护来运行诊断并预测可靠性相关的问题。这将最大程度地延长系统正常运行时间，提高大规模AI部署的弹性，使其能够连续不间断运行数周乃至数月，同时降低运营成本。

●安全AI：先进的机密计算功能可以在不影响性能的情况下保护AI模型和客户数据，并且支持全新本地接口加密协议，这对于医疗、金融服务等高度重视隐私问题的行业至关重要。

●解压缩引擎：专用的解压缩引擎支持最新格式，通过加速数据库查询提供极其强大的数据分析和数据科学性能。未来几年，每年需要企业花费数百亿美元的数据处理将越来越多地由GPU加速。

凭借上述技术，Blackwell能够在拥有高达10万亿参数的模型上实现AI训练和实时LLM推理。英伟达表示，这些技术将助推数据处理、工程模拟、电子设计自动化、计算机辅助药物设计、量子计算和生成式AI等领域实现突破。

超大规模的超级芯片

英伟达还介绍了GB200 Grace Blackwell超级芯片。

官方称，该超级芯片是通过900GB/s超低功耗的片间互联，将两个英伟达B200 Tensor Core GPU与Grace CPU相连。

GB200是英伟达GB200 NVL72的关键组件。GB200 NVL72是一套多节点液冷机架级扩展系统，适用于高度计算密集型的工作负载。它将36个GraceBlackwell超级芯片组合在一起，其中包含通过第五代NVLink相互连接的72个Blackwell GPU和36个Grace CPU。

GB200 NVL72规格

此外，GB200 NVL72还内置BlueField®-3数据处理器，可在超大规模AI云中实现云网络加速、组合式存储、零信任安全和GPU计算弹性。对于LLM推理工作负载，相较于同样数量的H100，GB200 NVL72最高可提供30倍的性能提升以及多达25倍的成本和能耗降低。

值得一提的是，该平台可作为一个单GPU，具有1.4 exaflops的AI性能和30TB的快速内存，是组成最新一代DGX SuperPOD的基础模块。

已有多家企业“属意”Blackwell架构

英伟达方面透露，其合作伙伴将从今年晚些时候开始供应采用Blackwell架构的产品。

其中，亚马逊的AWS、谷歌云、微软的Azure、甲骨文云基础设施将成为首批提供 Blackwell 驱动实例的云服务提供商。

Indosat Ooredoo Hutchinson、Nebius、Nexgen Cloud、Oracle EU Sovereign Cloud、Oracle美国/英国/澳大利亚政府云、新加坡电信等主权AI云也将提供基于Blackwell架构的云服务和基础设施。

GB200 还将通过 NVIDIA DGX™ Cloud 提供，NVIDIA DGX™ Cloud 是一个与领先的云服务提供商共同设计的 AI 平台，可为企业开发人员提供专门的基础设施和软件访问权限，使他们能够构建并部署先进的生成式 AI 模型。AWS、谷歌云和甲骨文云基础设施计划在今年晚些时候托管采用Grace Blackwell的新实例。

此外，思科、戴尔、联想和超微预计将提供基于Blackwell产品打造的各种服务器。永擎电子、华硕、Foxconn、技嘉、和硕等多家企业也将提供基于Blackwell的服务器。

此外，越来越多的软件制造商网络，包括工程仿真领域的全球领导者 Ansys、Cadence 和 Synopsys，将使用基于Blackwell的处理器来加速其用于设计和仿真电气、机械和制造系统及零件的软件。他们的客户可以更低成本、更高能效地使用生成式 AI 和加速计算，来加速产品上市。

生成式AI微服务

在GTC大会期间，英伟达推出数十项企业级生成式AI微服务，企业可以利用这些微服务在自己的平台上创建和部署定制应用，同时保留对知识产权的完整所有权和控制权。

包括Adobe、Cadence、CrowdStrike、Getty Images和SAP在内的诸多领先应用、数据和网络安全平台提供商已经率先使用了英伟达AI Enterprise 5.0中提供的这些全新生成式AI微服务。

英伟达创始人兼首席执行官黄仁勋表示：“成熟的企业平台坐拥数据金矿，这些数据可以转化为生成式AI助手。我们与合作伙伴生态系统一起创建的这些容器化AI微服务，是各行业企业成为AI公司的基石。”

生成式AI微服务

NIM微服务提供基于英伟达推理软件的预构建容器，可以使开发者能够将部署时间从几周缩短至几分钟。它们为语言、语音和药物发现等领域提供行业标准API，使开发者能够使用安全托管在自己的基础设施中的专有数据，来快速构建AI应用。

NIM微服务将为谷歌、Meta、微软等多家企业的开放模型提供了快速且性能出色的生产级AI容器。

此外，为了加快AI采用，企业还可以使用CUDA-X微服务，包括用于定制语音和翻译AI的Riva、用于路由优化的cuOpt™，以及用于高分辨率气候和天气模拟的Earth-2。

英伟达表示，更多用于定制模型开发的NVIDIA NeMo™ 微服务即将陆续发布，其中包括构建用于训练和检索的简洁数据集的NeMo Curator、用于利用特定领域数据微调LLM的NeMo Customizer、用于分析 AI 模型性能的NeMo Evaluator 以及用于LLM的NeMo Guardrails。