(1)L4:针对AI视频设计的通用GPU,可提供比CPU高120倍的AI视频性能,能效提高99%;优化了视频解码与转码、视频内容审核、视频通话等功能,如背景替换、重新打光、眼神交流、转录和实时翻译等。一台8-GPU L4服务器将取代100多台用于处理AI视频的双插槽CPU服务器。
(2)L40:用于图像生成,针对图形和AI支持的2D、视频和3D图像生成进行了优化,推理性能是英伟达最受欢迎的云推理GPU T4的10倍。
(3)H100 NVL:针对ChatGPT等大型语言模型的大规模部署,配备双GPU NVLink,将两张拥有94GB HBM3显存的PCIe H100 GPU拼接在一起,可处理拥有1750亿参数的GPT-3大模型,同时支持商用PCIe服务器轻松扩展。
老黄说,目前在云上唯一可以实际处理ChatGPT的GPU是HGX A100。与适用于GPT-3处理的HGX A100相比,一台搭载4对H100及双GPU NVLink的标准服务器的速度要快10倍,H100可将大型语言模型的处理成本降低一个数量级。
(4)Grace Hopper超级芯片:适用于推荐系统和大型语言模型的AI数据库,图推荐模型、向量数据库和图神经网络的理想选择,通过900GB/s的高速一致性芯片到芯片接口连接英伟达Grace CPU和Hopper GPU。
谷歌云是第一个向客户提供英伟达L4推理GPU的云服务提供商。谷歌还将L4集成到其Vertex AI模型商店中。
英伟达推出了一项名为DGX Cloud的AI超级计算服务,与微软Azure、谷歌OCP、Oracle OCI合作,通过一个Web浏览器就能访问,以便企业为生成式AI和其他开创性应用训练先进的模型。
DGX Cloud实例的起价为每个实例每月36999美元。其每个实例都具有8个NVIDIA H100或A100 80GB Tensor Core GPU,每个节点共有640GB的GPU内存。DGX Cloud提供了专用的NVIDIA DGX AI超级计算集群,并配备了NVIDIA AI软件。
英伟达还推出了全新云服务及代工厂NVIDIA AI Foundations,使企业能够构建、改进、运营使用其专有数据训练的、用于特定领域任务的定制大模型和生成式AI模型:
(1)NeMo:文本生成模型构建服务,提供从80亿到5300亿个参数的模型,会定期更新额外的训练数据,帮助企业为客服、企业搜索、聊天机器人、市场情报等生成式AI应用进行模型定制。
(2)Picasso:视觉语言模型构建服务,具有先进的文生图、文本转视频、文本转3D功能,可为产品设计、数字孪生、角色创建等使用自然文本提示的应用快速创建和定制视觉内容。
(3)BioNeMo:生命科学服务,提供AI模型训练和推理,加速药物研发中最耗时和成本最高的阶段,可加速新蛋白质和治疗方法的创建以及基因组学、化学、生物学和分子动力学研究。
直接在浏览器上或通过API,均可访问这些运行在NVIDIA DGX Cloud上的云服务。NeMo、BioNeMo云服务已开放早期访问,Picasso云服务正在私人预览中。
英伟达也宣布了一系列跟生成式AI相关的合作进展,包括与Adobe合作开发新一代先进的生成式AI模型;与Getty Images合作训练负责任的文生图、文本转视频基础模型;与Shutterstock合作,训练从简单文本提示中创建生成式3D模型,将创作时间从几小时减少到几分钟。
此外,英伟达与三菱联合发布了将用于加速药物研发的日本第一台生成式AI超级计算机Tokyo-1。通过在Tokyo-1上使用NVIDIA BioNeMo软件,研究人员能运行高达数十亿参数的先进AI模型,包括蛋白质结构预测、小分子生成、姿态估计等。
数据处理单元(DPU)方面,黄仁勋宣布英伟达BlueField-3 DPU已投入生产,并被百度、CoreWeave、京东、微软Azure、Oracle OCI、腾讯游戏等领先的云服务提供商所采用,以加速其云计算平台。
面向量子计算,要从量子噪声和退相干中恢复数据,需要对大量量子比特进行纠错。对此,英伟达与Quantum Machines合作推出了一个量子控制链路,它可将英伟达GPU连接到量子计算机,以极快的速度进行纠错。
双方合作研发的全球首个GPU加速量子计算系统NVIDIA DGX Quantum,将强大的加速计算平台(由NVIDIA Grace Hopper超级芯片和CUDA量子开源编程模型支持)与全球最先进的量子控制平台OPX结合在一起,使研究人员能够构建强大的应用,将量子计算与最先进的经典计算结合起来,实现校准、控制、量子纠错和混合算法。
NVIDIA DGX Quantum的核心是NVIDIA Grace Hopper系统,通过PCIe连接到通用量子控制系统Quantum Machines OPX+,实现QPU和量子之间的亚微秒延迟处理单元(QPU)。
DGX Quantum还为开发人员配备了一款强大的混合GPU-Quantum编程模型NVIDIA CUDA Quantum,可以在一个系统中集成QPU、GPU、CPU并进行编程。多家量子硬件公司将CUDA Quantum集成到他们的平台中。
美国通信巨头AT&T宣布与英伟达合作,使用英伟达全套AI平台改进运营并提高可持续性。AT&T将使用英伟达AI平台进行数据处理、优化服务排队、创建员工支持和培训的对话式AI数字化形象。
面向元宇宙领域,英伟达推出了第三代OVX计算系统和新一代工作站,为基于NVIDIA Omniverse Enterprise的大规模数字孪生提供动力。
第三代OVX服务器通过组合双CPU平台、BlueField-3 DPU、L40 GPU、两个ConnectX-7 SmartNIC和NVIDIA Spectrum以太网平台,提供了突破性的图形和AI性能,可加速大规模数字孪生模拟等应用,进而提高运营效率和预测性规划功能。
企业可以利用OVX性能在可视化、虚拟工作站和数据中心处理工作流程等方面进行协作。
此外,新一代NVIDIA RTX工作站RTX 4000 SFF Ada Generation采用英伟达Ada Lovelace GPU、ConnectX-6 Dx SmartNIC和英特尔至强处理器。最新发布的RTX 5000 Ada一代笔记本电脑GPU使专业人士能随时随地访问Omniverse和工业元宇宙工作负载。
黄仁勋还宣布了英伟达用于构建和操作元宇宙应用的平台NVIDIA Omniverse的相关更新,增加了一系列生成式AI、模拟仿真相关功能,让开发者能够更轻松地部署工业元宇宙应用。
平台即服务(PaaS)NVIDIA Omniverse Cloud现已面向特定企业开放,使企业能够在其核心产品和业务流程中统一数字化。
“从大型物理设施到手持消费品,每一个人造物体都有一天会拥有一个数字孪生,用来建造、操作和优化物体。”黄仁勋说,“Omniverse Cloud是用于工业数字化的从数字到物理的操作系统,它的出现正好赶上了正在建设的价值数万亿美元的新电动汽车、电池和芯片工厂。”
英伟达选择微软Azure作为Omniverse Cloud的首个云服务提供商。由NVIDIA OVX计算系统提供支持的Omniverse Cloud将于今年下半年与微软Azure一起推出。企业可访问Omniverse软件应用程序的全堆栈套件和NVIDIA OVX基础设施,并享有Azure云服务的规模和安全性。
Azure上Omniverse Cloud的新订阅服务使汽车团队可轻松实现工作流程的数字化,无论是连接3D设计工具以加速汽车开发,还是构建汽车的数字孪生工厂或运行闭环模拟来测试车辆性能。
老黄在演讲期间分享了一个视频,展示亚马逊如何用英伟达Omniverse平台构建完全逼真的数字孪生机器人仓库,以节省时间和金钱。
英伟达与宝马集团宣布扩大合作,为汽车制造商开设了第一个完全虚拟工厂。宝马集团将英伟达Omniverse平台用在其全球生产网络中构建和运行工业元宇宙应用。
此外,英伟达与其合作伙伴发布了全新的Omniverse Connections,通过通用场景描述(USD)框架连接更多世界更多先进应用。
“生成式AI正在推动AI的快速应用,并重塑无数行业。”老黄说,“我们正处于AI的「iPhone时刻」,初创公司竞相构建具有颠覆性的产品和商业模式,老牌公司则在寻求应对之策,生成式AI引发了全球企业制定AI战略的紧迫感。”
从今日英伟达的一系列软硬件发布,可以看到英伟达对先进AI计算的支撑已经覆盖到从GPU、DPU等硬件到帮助企业加速构建定制生成式AI模型的云服务,进而推动释放人类的创造力。
这已经不是老黄第一次“跳预言家”了。英伟达的加速计算产品可以说是与AI产业的发展共生共荣。英伟达不断为更大规模的AI模型训练提供更强大的算力基座,对AI训练和推理的前沿发展起到了重要推动力,蓬勃而生的AI热潮又为英伟达带来了更广阔的市场和机遇。
如今,生成式AI所展现出的商用前景几乎激励着每个行业重新设想其商业战略和实现这些战略所需的技术。英伟达正与其合作伙伴迅速行动,为AI应用提供更强大的计算平台,让更多人从生成式AI等前沿应用的变革性力量中受益。