英伟达最强 AI 芯片、人形机器人模型炸场!黄仁勋放言英语将成最强大编程语言

本文涉及的产品
云服务器 ECS,每月免费额度200元 3个月
云服务器ECS,u1 2核4GB 1个月
简介: 在2024年的GTC大会上,英伟达创始人黄仁勋揭幕了新一代AI芯片Blackwell,号称是史上最强AI芯片,目标是推动AI领域的重大进步。

北京时间凌晨4点,天还未亮,美国加利福尼亚州圣何塞SAP中心内已是星光璀璨。聚光灯打在黄仁勋的身上,英伟达的技术盛宴GTC 2024吸引了全世界的目光。AI科技大本营带你直击英伟达GTC2024现场。

“我希望你们意识到,这不是一场音乐会,你们来参加的是一场开发者盛会。”黄仁勋在开场时说道。

史上最强AI芯片

新一代AI图形处理器被命名为Blackwell。该GPU平台以数学家David Harold Blackwell命名。据英伟达称,Blackwell架构系列芯片是迄今为止功能最强大的AI芯片系列。

(黄仁勋展示继Hopper之后的Blackwell)


据黄仁勋介绍,B200拥有2080亿个晶体管(而 H100/H200 上有 800 亿个晶体管),采用台积电4NP工艺制程,可以支持多达10万亿个参数的 AI 模型,而 OpenAI 的 GPT-3 由 1750 亿个参数组成。它还通过单个 GPU 提供20 petaflops(每秒千万亿次浮点运算)的AI性能——单个H100最多可提供 4 petaflops的AI计算。

Blackwell GPU 很大。Blackwell B200并不是传统意义上的单一GPU。它由两个紧密耦合的芯片组成,这两个芯片通过10 TB/s NV-HBI(即Nvidia高带宽接口)进行连接,以确保它们能够作为单个一致的芯片正常运行。

Blackwell架构在 AI 安全方面又向前迈进了重要一步。Blackwell通过100%系统内自测试RAS服务和全性能加密提供安全的AI,也就是说数据不仅在传输过程中安全,而且在静止状态和计算时也安全。

GB200将两个B200 Blackwell GPU与一个基于 Arm的Grace CPU 配对。在具有 1750 亿个参数的 GPT-3 基准测试中,英伟达表示 GB200 的性能是 H100 的 7 倍,训练速度是 H100 的 4 倍。

英伟达没有提供新 GB200 以及所使用的系统成本。据分析师估计,Nvidia基于Hopper的 H100 每个芯片的成本在 2.5万美元到 4万美元之间,整个系统的成本高达20万美元。

亚马逊、谷歌、微软和甲骨文将通过云服务出售 GB200 的访问权限。英伟达表示,AWS、戴尔科技、谷歌、Meta、微软、OpenAI 和特斯拉计划使用 Blackwell GPU,其中亚马逊网络服务将构建一个包含 2万个 GB200 芯片的服务器集群。

英伟达表示,该系统可以部署27万亿参数的模型。这甚至比最大的模型(例如 GPT-4)还要大得多,据报道 GPT-4 有 1.7 万亿个参数。许多人工智能研究人员认为,具有更多参数和数据的更大模型可以释放新功能。

“生成式人工智能是我们这个时代的决定性技术,”黄仁勋在演讲时表示,“Blackwell GPU 是推动这场新工业革命的引擎。与世界上最具活力的公司合作,我们将实现人工智能对每个行业的承诺。”

新配套设备为AI芯片保驾护航

英伟达还发布了 GB200 NVL72 液冷机架系统,其中包含 36 颗 GB200 Grace Blackwell 超级芯片,拥有 1440 petaflops(又名 1.4 exaflops)的推理能力,它内部有近两英里长的电缆,共有 5000 根单独的电缆。

英伟达表示,与用于推理用途的相同数量的 H100 Tensor Core 图形处理单元相比,GB200 NVL72 性能提升高达 30 倍。此外,该系统还可将成本和能耗降低多达 25 倍。

例如,训练一个 1.8 万亿参数模型之前需要 8000 个 Hopper GPU 和 15 兆瓦的功率。如今,只需要 2000 个 Blackwell GPU 就可以做到这一点,而功耗仅为 4 兆瓦。

此外,英伟达称还将推出一款名为 HGX B200 的服务器主板,它基于在单个服务器节点中使用 8个B200 GPU和一个x86 CPU(可能是两个 CPU)。每个B200 GPU 可配置高达1000W,并且 GPU 提供高达 18 petaflops 的 FP4 吞吐量,因此比 GB200 中的GPU慢10%。

目前,企业客户可以通过 HGX B200 和 GB200(将 B200 GPU 与 英伟达的 Grace CPU 结合在一起)访问 B200。

首款人形机器人模型

英伟达还发布了人形机器人通用基础模型Project GROOT,希望通过发布这个新API集合 Project GROOT来推动人形机器人的开发。黄仁勋表示:“这是AI领域中最令人兴奋的课题之一。”

Project GROOT 是一个人形机器人模型,与 Jetson Thor 一起生产。Jetson Thor 是一款 SoC,也是 Nvidia Isaac的升级版。英伟达表示,GROOT 机器人将理解自然语言并模仿人类动作来学习灵活性。Jetson Thor 运行基于 Blackwell 的 GPU,可在 8 位数据处理中提供 800 teraflops 的 AI 性能。

GROOT驱动的机器人将能够理解自然语言,并通过观察人类行为来模仿动作。其能快速学习协调各种技能,具备更好的灵活性,以适应现实世界并与之互动。在黄仁勋的演讲中,他通过视频展示了数台这样的机器人是如何完成各种任务的。

其中包括医疗和物流搬运、分拣用的机械臂,以及可以做打果汁等家务的人形家用机器人,还有的机器人可以模仿人类打架子鼓,也能够从视频中学习人类的舞蹈动作并进行模拟。基于大语言模型,有的人形机器人还可以理解人类的口头指令,并做出回应。

英伟达正在为人形机器人公司开发一个综合的AI平台,如1X Technologies、Agility Robotics、Apptronik、波士顿动力公司等等。

(来到演讲现场的迪士尼机器人Green)

“下一代机器人很有可能是人形机器人,因为我们有更多的模仿训练数据可以提供给和我们构造相似的机器人们。人形机器人可以更有效率地部署在人类设计的工作站、制造和物流环节中。”黄仁勋说。

推理微服务NIM

在GTC 2024上,英伟达还推出了名为NIM(Nvidia Inference Microservice)的推理微服务。该软件将使人工智能的部署变得更加容易。英伟达高管表示,该公司正在不再是一个唯利是图的芯片提供商,而更像是一个平台提供商,就像微软或苹果一样,其他公司可以在平台上构建软件。

NIM 使使用旧版 Nvidia GPU 进行推理或运行人工智能软件的过程变得更加容易,并将允许公司继续使用他们已经拥有的数亿个 Nvidia GPU。与新人工智能模型的初始训练相比,推理所需的计算能力更少。NIM 使想要运行自己的 AI 模型的公司能够使用,而不是从 OpenAI 等公司购买 AI 结果作为服务。

英伟达将与微软或 Hugging Face 等人工智能公司合作,确保他们的人工智能模型能够在所有兼容的英伟达芯片上运行。然后,使用 NIM,开发人员可以在自己的服务器或基于云的英伟达服务器上高效地运行模型,而无需冗长的配置过程。

英伟达表示,该软件还将帮助人工智能在配备 GPU 的笔记本电脑上运行,而不是在云端服务器上运行。

“Hopper 太棒了,但我们需要更大的 GPU。”黄仁勋加在开发者大会上表示,“Blackwell 不是芯片,而是一个平台的名称。”

(黄仁勋展示Blackwell架构的平台能力)

此前,英伟达副总裁Manuvir Das在接受采访时表示。“可销售的商业产品是GPU,而软件都是为了帮助人们以不同的方式使用 GPU,当然,我们仍然这样做。但真正改变的是,我们现在真正拥有了商业软件业务。”Das表示,Nvidia的新软件将使在任何 Nvidia GPU 上运行程序变得更加容易,甚至是那些可能更适合部署但不适合构建人工智能的旧 GPU。

Das说:“如果你是一名开发人员,你有一个有趣的模型,希望人们采用,如果你将它放入 NIM 中,我们将确保它可以在我们所有的 GPU 上运行,这样你就能接触到很多人。”

拥抱AI,共赴未来

黄仁勋表示英伟达已经推出了数十种企业级生成式 AI 微服务,企业可以使用这些服务在自己的平台上制作应用程序,同时保留对其知识产权的完全所有权和控制权。他还宣布将Omniverse Cloud流传输至Apple Vision Pro耳机。

黄仁勋表示,英伟达表示正认真考虑从根本上重新设计整个底层软件堆栈,希望借 AI 之力为人类生成更优质的代码。之所以会有这样的想法,原因非常简单:几十年来,整个世界一直受制于围绕 CPU 发展出的传统计算框架,即由人类编写应用程序以检索数据库中准备好的信息。

黄仁勋在发布会上指出,“我们今天的计算方式,首先需要确定信息是由谁编写、由谁创建的,也就是要求信息先要被记录下来。”而英伟达的 GPU 为加速计算开辟出一条通往算法化计算的新路,可以依托创造性推理(而非固有逻辑)来确定相关结果。

黄仁勋表示,“未来,我们将步入持续学习的时代。我们可以决定是否部署持续学习的成果,而且与计算机的交互不会再借助 C++。”

黄仁勋认为,英语将成为最强大的编程语言,而个性化交互则是缩小技术鸿沟的关键因素。

黄仁勋表示,大语言模型将帮助人类通过计算机把自己的灵感转化为现实,也就是说人类将可以专注于领域专业知识,而生成式 AI 将补齐编程技能这块短板。黄仁勋认为这将彻底颠覆软件的开发格局。

AI时代,让我们联合广大开发者一起,共赴未来。

相关链接:

https://www.youtube.com/watch?v=Y2F8yisiS6E

https://www.cnbc.com/2024/03/18/nvidia-announces-gb200-blackwell-ai-chip-launching-later-this-year.html

————————————————

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明                

原文链接:https://blog.csdn.net/csdnnews/article/details/136849755

相关实践学习
基于阿里云DeepGPU实例,用AI画唯美国风少女
本实验基于阿里云DeepGPU实例,使用aiacctorch加速stable-diffusion-webui,用AI画唯美国风少女,可提升性能至高至原性能的2.6倍。
相关文章
|
1月前
|
人工智能 自然语言处理 数据处理
英伟达推出NeMo,极大简化自定义生成式AI开发
【2月更文挑战第30天】英伟达发布NeMo平台,简化生成式AI模型开发,加速AIGC进程。平台提供NeMo Curator、Customizer和Evaluator微服务,覆盖数据准备至模型评估全周期。Curator加速数据处理,Customizer支持模型微调,Evaluator全面评估模型性能。虽有学习曲线挑战,但NeMo为AI创新与应用带来更多可能性。
45 2
英伟达推出NeMo,极大简化自定义生成式AI开发
|
1月前
|
人工智能 芯片 异构计算
英伟达要小心了!爆火的Groq芯片能翻盘吗?AI推理速度「吊打」英伟达?
随着科技的飞速发展,人工智能公司Groq挑战了英伟达的王者地位,其AI芯片不仅展现出卓越的实力,还拥有巨大的潜力。Groq设计了一种独特的推理代币经济学模式,该模式背后牵动着众多因素,却也引发了深度思考:新的技术突破来自何处?中国该如何应对并抓住变革中的机遇?Groq成本如何评估?这些都是值得研究和思考的问题。
|
1月前
|
存储 人工智能 数据处理
英伟达AI Workbench正式发布,大幅度简化大模型开发流程
英伟达发布AI Workbench,革新大模型开发流程,简化GPU工作站配置,降低AI技术门槛。该工具提供预建AI项目、交互式文档功能及自定义图像生成,支持LLM定制,助力高效开发与协作。虽对新手有一定学习曲线,但已成AI民主化重要一步。
29 4
英伟达AI Workbench正式发布,大幅度简化大模型开发流程
|
1月前
|
人工智能 缓存 机器人
【2024】英伟达吞噬世界!新架构超级GPU问世,AI算力一步提升30倍
英伟达在加州圣荷西的GTC大会上发布了全新的Blackwell GPU,这款拥有2080亿个晶体管的芯片将AI性能推向新高度,是公司对通用计算时代的超越。Blackwell采用多芯片封装设计,通过两颗GPU集成,解决了内存局部性和缓存问题,提供20 petaflops的FP4算力,是上一代产品的5倍。此外,新平台降低了构建和运行大规模AI模型的成本和能耗,使得大型语言模型推理速度提升30倍。黄仁勋表示,Blackwell标志着AI算力在近八年内增长了一千倍,引领了技术边界拓宽的新趋势。
|
1月前
|
人工智能 算法 芯片
全球最强最大AI芯片WSE-3发布,4万亿晶体管5nm工艺制程
【2月更文挑战第24天】全球最强最大AI芯片WSE-3发布,4万亿晶体管5nm工艺制程
21 1
全球最强最大AI芯片WSE-3发布,4万亿晶体管5nm工艺制程
|
1月前
|
机器学习/深度学习 数据采集 人工智能
英伟达推出”生成式AI专业认证“,帮你成为大模型开发专家!
【2月更文挑战第18天】英伟达推出”生成式AI专业认证“,帮你成为大模型开发专家!
108 2
英伟达推出”生成式AI专业认证“,帮你成为大模型开发专家!
|
机器学习/深度学习 人工智能 自然语言处理
搜狗翻宝Pro机再次开挂,智能翻译硬件成中国人工智能的新风口
第五届世界互联网大会正在如火如荼的举行。
搜狗翻宝Pro机再次开挂,智能翻译硬件成中国人工智能的新风口
|
机器学习/深度学习 人工智能 自然语言处理
与世界同行 2017中国人工智能大会有感
与世界同行 2017中国人工智能大会有感
1543 0
与世界同行 2017中国人工智能大会有感