英伟达最强 AI 芯片、人形机器人模型炸场!黄仁勋放言英语将成最强大编程语言

本文涉及的产品
轻量应用服务器 2vCPU 4GiB,适用于网站搭建
轻量应用服务器 4vCPU 16GiB,适用于搭建游戏自建服
轻量应用服务器 2vCPU 4GiB,适用于搭建Web应用/小程序
简介: 在2024年的GTC大会上,英伟达创始人黄仁勋揭幕了新一代AI芯片Blackwell,号称是史上最强AI芯片,目标是推动AI领域的重大进步。

北京时间凌晨4点,天还未亮,美国加利福尼亚州圣何塞SAP中心内已是星光璀璨。聚光灯打在黄仁勋的身上,英伟达的技术盛宴GTC 2024吸引了全世界的目光。AI科技大本营带你直击英伟达GTC2024现场。

“我希望你们意识到,这不是一场音乐会,你们来参加的是一场开发者盛会。”黄仁勋在开场时说道。

史上最强AI芯片

新一代AI图形处理器被命名为Blackwell。该GPU平台以数学家David Harold Blackwell命名。据英伟达称,Blackwell架构系列芯片是迄今为止功能最强大的AI芯片系列。

(黄仁勋展示继Hopper之后的Blackwell)


据黄仁勋介绍,B200拥有2080亿个晶体管(而 H100/H200 上有 800 亿个晶体管),采用台积电4NP工艺制程,可以支持多达10万亿个参数的 AI 模型,而 OpenAI 的 GPT-3 由 1750 亿个参数组成。它还通过单个 GPU 提供20 petaflops(每秒千万亿次浮点运算)的AI性能——单个H100最多可提供 4 petaflops的AI计算。

Blackwell GPU 很大。Blackwell B200并不是传统意义上的单一GPU。它由两个紧密耦合的芯片组成,这两个芯片通过10 TB/s NV-HBI(即Nvidia高带宽接口)进行连接,以确保它们能够作为单个一致的芯片正常运行。

Blackwell架构在 AI 安全方面又向前迈进了重要一步。Blackwell通过100%系统内自测试RAS服务和全性能加密提供安全的AI,也就是说数据不仅在传输过程中安全,而且在静止状态和计算时也安全。

GB200将两个B200 Blackwell GPU与一个基于 Arm的Grace CPU 配对。在具有 1750 亿个参数的 GPT-3 基准测试中,英伟达表示 GB200 的性能是 H100 的 7 倍,训练速度是 H100 的 4 倍。

英伟达没有提供新 GB200 以及所使用的系统成本。据分析师估计,Nvidia基于Hopper的 H100 每个芯片的成本在 2.5万美元到 4万美元之间,整个系统的成本高达20万美元。

亚马逊、谷歌、微软和甲骨文将通过云服务出售 GB200 的访问权限。英伟达表示,AWS、戴尔科技、谷歌、Meta、微软、OpenAI 和特斯拉计划使用 Blackwell GPU,其中亚马逊网络服务将构建一个包含 2万个 GB200 芯片的服务器集群。

英伟达表示,该系统可以部署27万亿参数的模型。这甚至比最大的模型(例如 GPT-4)还要大得多,据报道 GPT-4 有 1.7 万亿个参数。许多人工智能研究人员认为,具有更多参数和数据的更大模型可以释放新功能。

“生成式人工智能是我们这个时代的决定性技术,”黄仁勋在演讲时表示,“Blackwell GPU 是推动这场新工业革命的引擎。与世界上最具活力的公司合作,我们将实现人工智能对每个行业的承诺。”

新配套设备为AI芯片保驾护航

英伟达还发布了 GB200 NVL72 液冷机架系统,其中包含 36 颗 GB200 Grace Blackwell 超级芯片,拥有 1440 petaflops(又名 1.4 exaflops)的推理能力,它内部有近两英里长的电缆,共有 5000 根单独的电缆。

英伟达表示,与用于推理用途的相同数量的 H100 Tensor Core 图形处理单元相比,GB200 NVL72 性能提升高达 30 倍。此外,该系统还可将成本和能耗降低多达 25 倍。

例如,训练一个 1.8 万亿参数模型之前需要 8000 个 Hopper GPU 和 15 兆瓦的功率。如今,只需要 2000 个 Blackwell GPU 就可以做到这一点,而功耗仅为 4 兆瓦。

此外,英伟达称还将推出一款名为 HGX B200 的服务器主板,它基于在单个服务器节点中使用 8个B200 GPU和一个x86 CPU(可能是两个 CPU)。每个B200 GPU 可配置高达1000W,并且 GPU 提供高达 18 petaflops 的 FP4 吞吐量,因此比 GB200 中的GPU慢10%。

目前,企业客户可以通过 HGX B200 和 GB200(将 B200 GPU 与 英伟达的 Grace CPU 结合在一起)访问 B200。

首款人形机器人模型

英伟达还发布了人形机器人通用基础模型Project GROOT,希望通过发布这个新API集合 Project GROOT来推动人形机器人的开发。黄仁勋表示:“这是AI领域中最令人兴奋的课题之一。”

Project GROOT 是一个人形机器人模型,与 Jetson Thor 一起生产。Jetson Thor 是一款 SoC,也是 Nvidia Isaac的升级版。英伟达表示,GROOT 机器人将理解自然语言并模仿人类动作来学习灵活性。Jetson Thor 运行基于 Blackwell 的 GPU,可在 8 位数据处理中提供 800 teraflops 的 AI 性能。

GROOT驱动的机器人将能够理解自然语言,并通过观察人类行为来模仿动作。其能快速学习协调各种技能,具备更好的灵活性,以适应现实世界并与之互动。在黄仁勋的演讲中,他通过视频展示了数台这样的机器人是如何完成各种任务的。

其中包括医疗和物流搬运、分拣用的机械臂,以及可以做打果汁等家务的人形家用机器人,还有的机器人可以模仿人类打架子鼓,也能够从视频中学习人类的舞蹈动作并进行模拟。基于大语言模型,有的人形机器人还可以理解人类的口头指令,并做出回应。

英伟达正在为人形机器人公司开发一个综合的AI平台,如1X Technologies、Agility Robotics、Apptronik、波士顿动力公司等等。

(来到演讲现场的迪士尼机器人Green)

“下一代机器人很有可能是人形机器人,因为我们有更多的模仿训练数据可以提供给和我们构造相似的机器人们。人形机器人可以更有效率地部署在人类设计的工作站、制造和物流环节中。”黄仁勋说。

推理微服务NIM

在GTC 2024上,英伟达还推出了名为NIM(Nvidia Inference Microservice)的推理微服务。该软件将使人工智能的部署变得更加容易。英伟达高管表示,该公司正在不再是一个唯利是图的芯片提供商,而更像是一个平台提供商,就像微软或苹果一样,其他公司可以在平台上构建软件。

NIM 使使用旧版 Nvidia GPU 进行推理或运行人工智能软件的过程变得更加容易,并将允许公司继续使用他们已经拥有的数亿个 Nvidia GPU。与新人工智能模型的初始训练相比,推理所需的计算能力更少。NIM 使想要运行自己的 AI 模型的公司能够使用,而不是从 OpenAI 等公司购买 AI 结果作为服务。

英伟达将与微软或 Hugging Face 等人工智能公司合作,确保他们的人工智能模型能够在所有兼容的英伟达芯片上运行。然后,使用 NIM,开发人员可以在自己的服务器或基于云的英伟达服务器上高效地运行模型,而无需冗长的配置过程。

英伟达表示,该软件还将帮助人工智能在配备 GPU 的笔记本电脑上运行,而不是在云端服务器上运行。

“Hopper 太棒了,但我们需要更大的 GPU。”黄仁勋加在开发者大会上表示,“Blackwell 不是芯片,而是一个平台的名称。”

(黄仁勋展示Blackwell架构的平台能力)

此前,英伟达副总裁Manuvir Das在接受采访时表示。“可销售的商业产品是GPU,而软件都是为了帮助人们以不同的方式使用 GPU,当然,我们仍然这样做。但真正改变的是,我们现在真正拥有了商业软件业务。”Das表示,Nvidia的新软件将使在任何 Nvidia GPU 上运行程序变得更加容易,甚至是那些可能更适合部署但不适合构建人工智能的旧 GPU。

Das说:“如果你是一名开发人员,你有一个有趣的模型,希望人们采用,如果你将它放入 NIM 中,我们将确保它可以在我们所有的 GPU 上运行,这样你就能接触到很多人。”

拥抱AI,共赴未来

黄仁勋表示英伟达已经推出了数十种企业级生成式 AI 微服务,企业可以使用这些服务在自己的平台上制作应用程序,同时保留对其知识产权的完全所有权和控制权。他还宣布将Omniverse Cloud流传输至Apple Vision Pro耳机。

黄仁勋表示,英伟达表示正认真考虑从根本上重新设计整个底层软件堆栈,希望借 AI 之力为人类生成更优质的代码。之所以会有这样的想法,原因非常简单:几十年来,整个世界一直受制于围绕 CPU 发展出的传统计算框架,即由人类编写应用程序以检索数据库中准备好的信息。

黄仁勋在发布会上指出,“我们今天的计算方式,首先需要确定信息是由谁编写、由谁创建的,也就是要求信息先要被记录下来。”而英伟达的 GPU 为加速计算开辟出一条通往算法化计算的新路,可以依托创造性推理(而非固有逻辑)来确定相关结果。

黄仁勋表示,“未来,我们将步入持续学习的时代。我们可以决定是否部署持续学习的成果,而且与计算机的交互不会再借助 C++。”

黄仁勋认为,英语将成为最强大的编程语言,而个性化交互则是缩小技术鸿沟的关键因素。

黄仁勋表示,大语言模型将帮助人类通过计算机把自己的灵感转化为现实,也就是说人类将可以专注于领域专业知识,而生成式 AI 将补齐编程技能这块短板。黄仁勋认为这将彻底颠覆软件的开发格局。

AI时代,让我们联合广大开发者一起,共赴未来。

相关链接:

https://www.youtube.com/watch?v=Y2F8yisiS6E

https://www.cnbc.com/2024/03/18/nvidia-announces-gb200-blackwell-ai-chip-launching-later-this-year.html

————————————————

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明                

原文链接:https://blog.csdn.net/csdnnews/article/details/136849755

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
相关文章
|
2月前
|
机器学习/深度学习 人工智能 算法
高考理科题AI秒解!昆仑万维开源多模态推理模型 Skywork-R1V 2.0
Skywork-R1V 2.0是昆仑万维最新开源的多模态推理模型,通过混合强化学习和多模态奖励模型实现复杂推理任务,在理科题目解答和科研分析中展现出色性能。
308 11
高考理科题AI秒解!昆仑万维开源多模态推理模型 Skywork-R1V 2.0
|
2月前
|
人工智能 测试技术 计算机视觉
让AI看懂3小时长视频!Eagle 2.5:英伟达推出8B视觉语言模型,长视频理解能力碾压72B大模型
Eagle 2.5是英伟达推出的8B参数视觉语言模型,通过创新训练策略在长视频和高分辨率图像理解任务中超越更大规模模型,支持512帧视频输入和多样化多模态任务。
207 11
让AI看懂3小时长视频!Eagle 2.5:英伟达推出8B视觉语言模型,长视频理解能力碾压72B大模型
|
2月前
|
人工智能 搜索推荐
「社会实验室」成真!SocioVerse:复旦联合小红书开源社会模拟世界模型,用AI预演群体行为
SocioVerse是由复旦大学联合小红书等机构开源的社会模拟框架,基于大语言模型和千万级真实用户数据构建,能精准模拟群体行为并预测社会事件演化趋势。
166 2
「社会实验室」成真!SocioVerse:复旦联合小红书开源社会模拟世界模型,用AI预演群体行为
|
2月前
|
人工智能 编解码 算法
AI生成视频告别剪辑拼接!MAGI-1:开源自回归视频生成模型,支持一镜到底的长视频生成
MAGI-1是Sand AI开源的全球首个自回归视频生成大模型,采用创新架构实现高分辨率流畅视频生成,支持无限扩展和精细控制,在物理行为预测方面表现突出。
339 1
AI生成视频告别剪辑拼接!MAGI-1:开源自回归视频生成模型,支持一镜到底的长视频生成
|
2月前
|
数据采集 人工智能 自动驾驶
从虚拟到现实!Aether:上海AI Lab开源的生成式世界模型,4D动态重建+视觉规划全搞定
Aether是上海AI Lab开源的生成式世界模型,通过三维时空建模与生成式建模的深度融合,实现了4D动态重建、动作条件视频预测和目标导向视觉规划三大核心能力。
161 1
从虚拟到现实!Aether:上海AI Lab开源的生成式世界模型,4D动态重建+视觉规划全搞定
|
2月前
|
人工智能 自然语言处理 搜索推荐
AI 搜索开放平台重磅发布:Qwen3 模型上线啦
阿里云AI搜索开放平台重磅发布最新Qwen3模型,为企业和开发者提供全栈智能搜索解决方案。Qwen3作为最新一代大模型,在推理、多语言支持和Agent能力上表现卓越。用户可通过三步快速体验Qwen3服务,助力业务在AI时代抢占先机。
284 12
|
2月前
|
存储 人工智能 边缘计算
当 AI 进入「算力密集时代」:你的服务器能跑通大模型吗?
本文深入探讨AI服务器在技术落地中的核心瓶颈问题,结合实战经验解析从模型训练到端侧部署的算力优化策略。内容涵盖三大典型场景的算力需求差异、GPU服务器选型的五大反直觉真相、实战优化方法(如混合精度训练与硬件资源监控),以及边缘AI部署挑战和解决方案。同时提供算力弹性扩展策略、模型生命周期管理及合规性建议,帮助读者构建可持续发展的算力体系。文末附有获取更多资源的指引。
141 17
|
2月前
|
机器学习/深度学习 人工智能 自动驾驶
让AI看懂图像每个像素!英伟达推出多模态大模型 DAM-3B:图像视频局部描述精度提升300%
英伟达推出的DAM-3B多模态大语言模型,通过创新的焦点提示技术和局部视觉骨干网络,实现了对图像和视频中特定区域的精准描述生成,为内容创作和智能交互领域带来全新可能。
251 0
让AI看懂图像每个像素!英伟达推出多模态大模型 DAM-3B:图像视频局部描述精度提升300%
|
1月前
|
人工智能 JavaScript 安全
【HarmonyOS NEXT+AI】问答05:ArkTS和仓颉编程语言怎么选?
本文针对学员关于“鸿蒙主推开发语言是ArkTS,为何课程使用仓颉语言”的疑问进行解答。文章回顾了鸿蒙编程语言的发展历程:从早期支持JS和C/C++,到HarmonyOS 2引入Java,再到HarmonyOS 3推出ArkTS,直至HarmonyOS 5(NEXT)引入仓颉语言。仓颉作为华为自研的现代编程语言,具备高效编程、安全可靠、轻松并发和卓越性能等特性,适用于高性能高并发场景及未来AI原生应用开发。文章还探讨了仓颉与ArkTS的关系、应用场景以及是否需要重写现有应用等问题,为开发者选择编程语言提供了参考依据。
145 13
【HarmonyOS NEXT+AI】问答05:ArkTS和仓颉编程语言怎么选?
|
24天前
|
人工智能 PyTorch TensorFlow
AI界的"翻译官":ONNX如何让各框架模型和谐共处
还在为不同框架间的模型转换头疼?ONNX让你在PyTorch训练的模型可以无缝在TensorFlow部署,甚至能让模型在手机上飞速运行。本文带你了解这个AI领域的'瑞士军刀',轻松实现跨平台高性能模型部署。
126 12

热门文章

最新文章