英伟达最强 AI 芯片、人形机器人模型炸场!黄仁勋放言英语将成最强大编程语言

本文涉及的产品
云服务器 ECS,每月免费额度200元 3个月
云服务器ECS,u1 2核4GB 1个月
简介: 在2024年的GTC大会上,英伟达创始人黄仁勋揭幕了新一代AI芯片Blackwell,号称是史上最强AI芯片,目标是推动AI领域的重大进步。

北京时间凌晨4点,天还未亮,美国加利福尼亚州圣何塞SAP中心内已是星光璀璨。聚光灯打在黄仁勋的身上,英伟达的技术盛宴GTC 2024吸引了全世界的目光。AI科技大本营带你直击英伟达GTC2024现场。

“我希望你们意识到,这不是一场音乐会,你们来参加的是一场开发者盛会。”黄仁勋在开场时说道。

史上最强AI芯片

新一代AI图形处理器被命名为Blackwell。该GPU平台以数学家David Harold Blackwell命名。据英伟达称,Blackwell架构系列芯片是迄今为止功能最强大的AI芯片系列。

(黄仁勋展示继Hopper之后的Blackwell)


据黄仁勋介绍,B200拥有2080亿个晶体管(而 H100/H200 上有 800 亿个晶体管),采用台积电4NP工艺制程,可以支持多达10万亿个参数的 AI 模型,而 OpenAI 的 GPT-3 由 1750 亿个参数组成。它还通过单个 GPU 提供20 petaflops(每秒千万亿次浮点运算)的AI性能——单个H100最多可提供 4 petaflops的AI计算。

Blackwell GPU 很大。Blackwell B200并不是传统意义上的单一GPU。它由两个紧密耦合的芯片组成,这两个芯片通过10 TB/s NV-HBI(即Nvidia高带宽接口)进行连接,以确保它们能够作为单个一致的芯片正常运行。

Blackwell架构在 AI 安全方面又向前迈进了重要一步。Blackwell通过100%系统内自测试RAS服务和全性能加密提供安全的AI,也就是说数据不仅在传输过程中安全,而且在静止状态和计算时也安全。

GB200将两个B200 Blackwell GPU与一个基于 Arm的Grace CPU 配对。在具有 1750 亿个参数的 GPT-3 基准测试中,英伟达表示 GB200 的性能是 H100 的 7 倍,训练速度是 H100 的 4 倍。

英伟达没有提供新 GB200 以及所使用的系统成本。据分析师估计,Nvidia基于Hopper的 H100 每个芯片的成本在 2.5万美元到 4万美元之间,整个系统的成本高达20万美元。

亚马逊、谷歌、微软和甲骨文将通过云服务出售 GB200 的访问权限。英伟达表示,AWS、戴尔科技、谷歌、Meta、微软、OpenAI 和特斯拉计划使用 Blackwell GPU,其中亚马逊网络服务将构建一个包含 2万个 GB200 芯片的服务器集群。

英伟达表示,该系统可以部署27万亿参数的模型。这甚至比最大的模型(例如 GPT-4)还要大得多,据报道 GPT-4 有 1.7 万亿个参数。许多人工智能研究人员认为,具有更多参数和数据的更大模型可以释放新功能。

“生成式人工智能是我们这个时代的决定性技术,”黄仁勋在演讲时表示,“Blackwell GPU 是推动这场新工业革命的引擎。与世界上最具活力的公司合作,我们将实现人工智能对每个行业的承诺。”

新配套设备为AI芯片保驾护航

英伟达还发布了 GB200 NVL72 液冷机架系统,其中包含 36 颗 GB200 Grace Blackwell 超级芯片,拥有 1440 petaflops(又名 1.4 exaflops)的推理能力,它内部有近两英里长的电缆,共有 5000 根单独的电缆。

英伟达表示,与用于推理用途的相同数量的 H100 Tensor Core 图形处理单元相比,GB200 NVL72 性能提升高达 30 倍。此外,该系统还可将成本和能耗降低多达 25 倍。

例如,训练一个 1.8 万亿参数模型之前需要 8000 个 Hopper GPU 和 15 兆瓦的功率。如今,只需要 2000 个 Blackwell GPU 就可以做到这一点,而功耗仅为 4 兆瓦。

此外,英伟达称还将推出一款名为 HGX B200 的服务器主板,它基于在单个服务器节点中使用 8个B200 GPU和一个x86 CPU(可能是两个 CPU)。每个B200 GPU 可配置高达1000W,并且 GPU 提供高达 18 petaflops 的 FP4 吞吐量,因此比 GB200 中的GPU慢10%。

目前,企业客户可以通过 HGX B200 和 GB200(将 B200 GPU 与 英伟达的 Grace CPU 结合在一起)访问 B200。

首款人形机器人模型

英伟达还发布了人形机器人通用基础模型Project GROOT,希望通过发布这个新API集合 Project GROOT来推动人形机器人的开发。黄仁勋表示:“这是AI领域中最令人兴奋的课题之一。”

Project GROOT 是一个人形机器人模型,与 Jetson Thor 一起生产。Jetson Thor 是一款 SoC,也是 Nvidia Isaac的升级版。英伟达表示,GROOT 机器人将理解自然语言并模仿人类动作来学习灵活性。Jetson Thor 运行基于 Blackwell 的 GPU,可在 8 位数据处理中提供 800 teraflops 的 AI 性能。

GROOT驱动的机器人将能够理解自然语言,并通过观察人类行为来模仿动作。其能快速学习协调各种技能,具备更好的灵活性,以适应现实世界并与之互动。在黄仁勋的演讲中,他通过视频展示了数台这样的机器人是如何完成各种任务的。

其中包括医疗和物流搬运、分拣用的机械臂,以及可以做打果汁等家务的人形家用机器人,还有的机器人可以模仿人类打架子鼓,也能够从视频中学习人类的舞蹈动作并进行模拟。基于大语言模型,有的人形机器人还可以理解人类的口头指令,并做出回应。

英伟达正在为人形机器人公司开发一个综合的AI平台,如1X Technologies、Agility Robotics、Apptronik、波士顿动力公司等等。

(来到演讲现场的迪士尼机器人Green)

“下一代机器人很有可能是人形机器人,因为我们有更多的模仿训练数据可以提供给和我们构造相似的机器人们。人形机器人可以更有效率地部署在人类设计的工作站、制造和物流环节中。”黄仁勋说。

推理微服务NIM

在GTC 2024上,英伟达还推出了名为NIM(Nvidia Inference Microservice)的推理微服务。该软件将使人工智能的部署变得更加容易。英伟达高管表示,该公司正在不再是一个唯利是图的芯片提供商,而更像是一个平台提供商,就像微软或苹果一样,其他公司可以在平台上构建软件。

NIM 使使用旧版 Nvidia GPU 进行推理或运行人工智能软件的过程变得更加容易,并将允许公司继续使用他们已经拥有的数亿个 Nvidia GPU。与新人工智能模型的初始训练相比,推理所需的计算能力更少。NIM 使想要运行自己的 AI 模型的公司能够使用,而不是从 OpenAI 等公司购买 AI 结果作为服务。

英伟达将与微软或 Hugging Face 等人工智能公司合作,确保他们的人工智能模型能够在所有兼容的英伟达芯片上运行。然后,使用 NIM,开发人员可以在自己的服务器或基于云的英伟达服务器上高效地运行模型,而无需冗长的配置过程。

英伟达表示,该软件还将帮助人工智能在配备 GPU 的笔记本电脑上运行,而不是在云端服务器上运行。

“Hopper 太棒了,但我们需要更大的 GPU。”黄仁勋加在开发者大会上表示,“Blackwell 不是芯片,而是一个平台的名称。”

(黄仁勋展示Blackwell架构的平台能力)

此前,英伟达副总裁Manuvir Das在接受采访时表示。“可销售的商业产品是GPU,而软件都是为了帮助人们以不同的方式使用 GPU,当然,我们仍然这样做。但真正改变的是,我们现在真正拥有了商业软件业务。”Das表示,Nvidia的新软件将使在任何 Nvidia GPU 上运行程序变得更加容易,甚至是那些可能更适合部署但不适合构建人工智能的旧 GPU。

Das说:“如果你是一名开发人员,你有一个有趣的模型,希望人们采用,如果你将它放入 NIM 中,我们将确保它可以在我们所有的 GPU 上运行,这样你就能接触到很多人。”

拥抱AI,共赴未来

黄仁勋表示英伟达已经推出了数十种企业级生成式 AI 微服务,企业可以使用这些服务在自己的平台上制作应用程序,同时保留对其知识产权的完全所有权和控制权。他还宣布将Omniverse Cloud流传输至Apple Vision Pro耳机。

黄仁勋表示,英伟达表示正认真考虑从根本上重新设计整个底层软件堆栈,希望借 AI 之力为人类生成更优质的代码。之所以会有这样的想法,原因非常简单:几十年来,整个世界一直受制于围绕 CPU 发展出的传统计算框架,即由人类编写应用程序以检索数据库中准备好的信息。

黄仁勋在发布会上指出,“我们今天的计算方式,首先需要确定信息是由谁编写、由谁创建的,也就是要求信息先要被记录下来。”而英伟达的 GPU 为加速计算开辟出一条通往算法化计算的新路,可以依托创造性推理(而非固有逻辑)来确定相关结果。

黄仁勋表示,“未来,我们将步入持续学习的时代。我们可以决定是否部署持续学习的成果,而且与计算机的交互不会再借助 C++。”

黄仁勋认为,英语将成为最强大的编程语言,而个性化交互则是缩小技术鸿沟的关键因素。

黄仁勋表示,大语言模型将帮助人类通过计算机把自己的灵感转化为现实,也就是说人类将可以专注于领域专业知识,而生成式 AI 将补齐编程技能这块短板。黄仁勋认为这将彻底颠覆软件的开发格局。

AI时代,让我们联合广大开发者一起,共赴未来。

相关链接:

https://www.youtube.com/watch?v=Y2F8yisiS6E

https://www.cnbc.com/2024/03/18/nvidia-announces-gb200-blackwell-ai-chip-launching-later-this-year.html

————————————————

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明                

原文链接:https://blog.csdn.net/csdnnews/article/details/136849755

相关实践学习
基于阿里云DeepGPU实例,用AI画唯美国风少女
本实验基于阿里云DeepGPU实例,使用aiacctorch加速stable-diffusion-webui,用AI画唯美国风少女,可提升性能至高至原性能的2.6倍。
相关文章
|
9天前
|
机器学习/深度学习 人工智能 自然语言处理
当大火的文图生成模型遇见知识图谱,AI画像趋近于真实世界
本文介绍了阿里云机器学习PAI团队开发的名为ARTIST的中文文图生成模型,该模型融合了知识图谱信息,能够生成更加符合常识的图像。ARTIST基于Transformer架构,将文图生成任务分为图像矢量量化和文本引导的图像序列生成两个阶段。在第一阶段,模型使用VQGAN对图像进行矢量量化;在第二阶段,通过GPT模型并结合知识图谱中的实体知识来生成图像序列。在MUGE中文文图生成评测基准上,ARTIST表现出色,其生成效果优于其他模型。此外,EasyNLP框架提供了简单易用的接口,用户可以基于公开的Checkpoint进行少量领域相关的微调,实现各种艺术创作。
|
2天前
|
机器学习/深度学习 人工智能 编解码
Sora - 探索AI视频模型的无限可能
Sora - 探索AI视频模型的无限可能
19 0
|
4天前
|
机器学习/深度学习 人工智能 自然语言处理
ai大模型
【5月更文挑战第20天】ai大模型
18 0
|
9天前
|
人工智能 NoSQL atlas
Fireworks AI和MongoDB:依托您的数据,借助优质模型,助力您开发高速AI应用
我们欣然宣布MongoDB与 Fireworks AI 正携手合作让客户能够利用生成式人工智能 (AI)更快速、更高效、更安全地开展创新活动
2574 1
|
9天前
|
人工智能 vr&ar
[译][AI Research] AI 模型中的“it”是数据集
模型效果的好坏,最重要的是数据集,而不是架构,超参数,优化器。
|
9天前
|
机器学习/深度学习 人工智能 自然语言处理
大模型和传统ai的区别
在人工智能(AI)领域,大模型一直是一个热议的话题。从之前的谷歌 DeepMind、百度 Big. AI等,再到今天的百度GPT-3,人工智能技术经历了从“有”到“大”的转变。那么,大模型与传统 ai的区别在哪里?这对未来人工智能发展会产生什么影响?
|
9天前
|
人工智能 监控 安全
在园区引入AI大模型
5月更文挑战第5天
20 0
|
9天前
|
存储 机器学习/深度学习 人工智能
RAG:AI大模型联合向量数据库和 Llama-index,助力检索增强生成技术
RAG:AI大模型联合向量数据库和 Llama-index,助力检索增强生成技术
RAG:AI大模型联合向量数据库和 Llama-index,助力检索增强生成技术
|
9天前
|
机器学习/深度学习 人工智能 自然语言处理
对大模型和AI的认识与思考
2023年,笔者也参与了各种学习和实践,从大语言模型、多模态算法,文生图(Stable Diffusion)技术,到prompt工程实践和搭建文生图(Stable Diffusion)webui实操环境。在此对谈谈对大模型和AI的认识与思考,是为总结。5月更文挑战第3天
33 1
|
9天前
|
机器学习/深度学习 人工智能
超越Sora极限,120秒超长AI视频模型诞生!
【5月更文挑战第1天】 StreamingT2V技术突破AI视频生成界限,实现120秒超长连贯视频,超越Sora等传统模型。采用自回归方法,结合短期记忆的条件注意模块和长期记忆的外观保持模块,保证内容连贯性和动态性。在实际应用中,展示出优秀的动态性、连贯性和图像质量,但仍有优化空间,如处理复杂场景变化和连续性问题。[链接](https://arxiv.org/abs/2403.14773)
34 3