Cosmos on PAI系列一:PAI-Model Gallery云上一键部署NVIDIA Cosmos Reason-1

简介: 本篇文章介绍 Cosmos 最新世界基础模型 Cosmos Reason-1 如何在阿里云人工智能平台 PAI 上进行快速部署使用。

NVIDIA Cosmos 是一个世界基础模型(WFMs, world foundation models)开发平台,用于推动物理 AI 的发展,包含先进的视觉标记器、护栏以及加速视频数据处理工具管线。它专为加速智能驾驶汽车和机器人领域的合成数据生成、AI 模型训练与评估而设计。

本篇文章介绍 Cosmos 最新世界基础模型 Cosmos Reason-1 如何在阿里云人工智能平台 PAI 上进行快速部署使用。


一、Cosmos Reason-1 模型简介

Cosmos Reason-1 是一款可完全定制的多模态 AI 推理模型,它专门为理解运动、物体交互以及时空关系而构建。基于思维链(Chain-of-thought, CoT)推理,Cosmos Reason-1 模型可以解读视觉输入、根据给定的提示词预测结果、并奖励最佳决策。

该模型基于真实世界的物理规律实现推理,从而生成清晰且能够感知上下文环境的自然语言回复。Cosmos Reason-1 能够通过充当判别器或对海量视觉数据进行标注,从而增强合成数据管理能力。


Cosmos Reason-1-7B 基于 Qwen2.5-VL 使用物理常识和具身推理数据进行后训练,并使用了监督微调(SFT)和强化学习(RL)技术。

更多关于 Cosmos Reason-1 模型的介绍,您可访问:


二、PAI-Model Gallery 简介

阿里云 PAI-Model Gallery 已同步接入 Cosmos Reason-1 模型,提供企业级部署方案。


PAI-Model Gallery 是阿里云人工智能平台 PAI 的产品组件,它集成了国内外 AI 开源社区中优质的预训练模型,涵盖了 LLM、AIGC、CV、NLP 等各个领域。通过 PAI 对这些模型的适配,用户可以以零代码方式实现从训练到部署再到推理的全过程,简化了模型的开发流程,为开发者和企业用户带来了更快、更高效、更便捷的 AI 开发和应用体验。


✅ 零代码一键部署

✅ 自动适配云资源

✅ 部署后开箱即用API

✅ 全流程运维托管

✅ 企业级安全 数据不出域

image.png


三、PAI 一键部署 Cosmos Reason-1

⬇️ 极简流程 立即体验 ⬇️

1. 在 PAI-Model Gallery 模型广场找到 Cosmos Reason-1-7B 模型

image.png

2. 在模型详情页右上角点击「部署」,在选择计算资源后,即可一键完成模型的云上部署。

image.png

3. 部署成功后,在服务页面可以点击“查看调用信息”获取调用的 Endpoint 和 Token,想了解服务调用方式可以点击预训练模型链接,返回模型介绍页查看调用方式说明。

image.png

4. 使用推理服务:您可以使用 API 调用模型服务,也可以使用 PAI 平台提供的 WebUI 界面与模型交互。

image.png


四、模型实测

我们使用 NVIDIA 官网提供的视频案例来测试模型。视频中一个人正在往杯子中倒牛奶,我们给模型的问题是“视频中的人将牛奶倒入杯中,下一步最合理的动作是什么?” 模型的回答展示出模型考虑到了人物下一步动作的各种可能性,甚至考虑到了倒完牛奶放好奶瓶后,用勺子搅拌牛奶和咖啡,最后模型在进行了一番深入思考后得出了结论,下一步是“将奶瓶放回到台面上”。


从这个例子可以看出,模型准确地“理解”了视频中人的动作并给出了正确的预测,这种对运动、物体交互以及时空关系的理解及预测能力,当前一般的语言模型是难以做到的,而且模型输出了完整的思维链,让我们能清楚地知道模型的整个思考过程。


下面附上完整的视频、输入问题、模型输出结果,供大家参考。

  • Question:The overall goal is "The agent pours milk into the cup". The agent in the video is currently performing one subtask out of many to complete this instruction. For the agent in the video, what is the most plausible next immediate subtask?
  • 模型输出:The agent is currently pouring milk into the cup. The next immediate subtask after pouring would logically be to stop pouring once the desired amount is achieved. Then, the agent would need to place the milk bottle back on the countertop. After that, they might close the bottle's cap to prevent spills. Finally, they could stir the mixture with the spoon to mix the milk and coffee thoroughly. However, since the current action is pouring, the very next step after pouring would be to stop pouring and set the bottle down. But the question asks for the most plausible next immediate subtask. Since the pouring is ongoing, the next step after completing the pour would be to place the milk bottle back on the countertop. Alternatively, if the pouring is still in progress, maybe adjusting the angle to ensure all milk is poured. But given the context, the agent is actively pouring, so once that's done, placing the bottle down makes sense. However, the answer might be to stop pouring and set the bottle aside. But the exact next step after pouring would be to place the bottle back. Alternatively, maybe the agent needs to check if the cup is full enough. But the most logical next step after pouring is to stop and place the bottle down. So the answer is likely "Place the milk bottle back on the countertop."



五、Coming Soon:NVIDIA Cosmos Reason-1 tools 模型后训练最佳实践

通过上面的例子我们已经可以看出 Cosmos Reason-1 模型的强大之处,此外,NVIDIA 本次除了开源 Cosmos Reason-1 模型,也开放了 Cosmos Reason-1 tools,包括模型后训练脚本(SFT + RL)。这就意味着,用户可以根据自身数据定制自己的 Cosmos Reason-1 模型,相信这会吸引众多开发者和企业定制自己的 physical AI 模型。


我们也第一时间测试了 Cosmos Reason-1 tools 的性能表现。在 Qwen2.5-32B-Instruct 模型 + gsm8k 数据集(Batch size = 2,048)组合上进行后训练测试,相比开源框架 verl,Cosmos Reason-1 tools 在小规模集群上实测有1-2倍的性能优势。


PAI 平台将在近期集成 Cosmos Reason-1 tools 模型后训练能力,欢迎您持续关注。


六、联系我们

欢迎各位小伙伴持续关注使用 PAI-Model Gallery,平台会不断上线 SOTA 模型,如果您有任何模型需求,也可以联系我们。您可通过搜索钉钉群号(79680024618),加入 PAI-Model Gallery 用户交流群。

相关实践学习
使用PAI+LLaMA Factory微调Qwen2-VL模型,搭建文旅领域知识问答机器人
使用PAI和LLaMA Factory框架,基于全参方法微调 Qwen2-VL模型,使其能够进行文旅领域知识问答,同时通过人工测试验证了微调的效果。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
相关文章
|
6月前
|
人工智能 自然语言处理 运维
【新模型速递】PAI-Model Gallery云上一键部署Kimi K2模型
月之暗面发布开源模型Kimi K2,采用MoE架构,参数达1T,激活参数32B,具备强代码能力及Agent任务处理优势。在编程、工具调用、数学推理测试中表现优异。阿里云PAI-Model Gallery已支持云端部署,提供企业级方案。
382 0
【新模型速递】PAI-Model Gallery云上一键部署Kimi K2模型
|
6月前
|
人工智能 自然语言处理 运维
【新模型速递】PAI-Model Gallery云上一键部署gpt-oss系列模型
阿里云 PAI-Model Gallery 已同步接入 gpt-oss 系列模型,提供企业级部署方案。
|
8月前
|
机器学习/深度学习 人工智能 自然语言处理
【新模型速递】PAI-Model Gallery云上一键部署MiniMax-M1模型
MiniMax公司6月17日推出4560亿参数大模型M1,采用混合专家架构和闪电注意力机制,支持百万级上下文处理,高效的计算特性使其特别适合需要处理长输入和广泛思考的复杂任务。阿里云PAI-ModelGallery现已接入该模型,提供一键部署、API调用等企业级解决方案,简化AI开发流程。
|
8月前
|
机器学习/深度学习 人工智能 JSON
DistilQwen-ThoughtX 蒸馏模型在 PAI-ModelGallery 的训练、评测、压缩及部署实践
通过 PAI-ModelGallery,可一站式零代码完成 DistilQwen-ThoughtX 系列模型的训练、评测、压缩和部署。
|
4月前
|
机器学习/深度学习 数据采集 人工智能
【机器学习算法篇】K-近邻算法
K近邻(KNN)是一种基于“物以类聚”思想的监督学习算法,通过计算样本间距离,选取最近K个邻居投票决定类别。支持多种距离度量,如欧式、曼哈顿、余弦相似度等,适用于分类与回归任务。结合Scikit-learn可高效实现,需合理选择K值并进行数据预处理,常用于鸢尾花分类等经典案例。(238字)
|
机器学习/深度学习 算法 数据挖掘
K-means聚类算法是机器学习中常用的一种聚类方法,通过将数据集划分为K个簇来简化数据结构
K-means聚类算法是机器学习中常用的一种聚类方法,通过将数据集划分为K个簇来简化数据结构。本文介绍了K-means算法的基本原理,包括初始化、数据点分配与簇中心更新等步骤,以及如何在Python中实现该算法,最后讨论了其优缺点及应用场景。
1417 6
|
9月前
|
机器学习/深度学习 数据采集 人工智能
20分钟掌握机器学习算法指南
在短短20分钟内,从零开始理解主流机器学习算法的工作原理,掌握算法选择策略,并建立对神经网络的直观认识。本文用通俗易懂的语言和生动的比喻,帮助你告别算法选择的困惑,轻松踏入AI的大门。
571 8
|
10月前
|
机器学习/深度学习 存储 Kubernetes
【重磅发布】AllData数据中台核心功能:机器学习算法平台
杭州奥零数据科技有限公司成立于2023年,专注于数据中台业务,维护开源项目AllData并提供商业版解决方案。AllData提供数据集成、存储、开发、治理及BI展示等一站式服务,支持AI大模型应用,助力企业高效利用数据价值。
|
11月前
|
机器学习/深度学习 人工智能 自然语言处理
AI训练师入行指南(三):机器学习算法和模型架构选择
从淘金到雕琢,将原始数据炼成智能珠宝!本文带您走进数字珠宝工坊,用算法工具打磨数据金砂。从基础的经典算法到精密的深度学习模型,结合电商、医疗、金融等场景实战,手把手教您选择合适工具,打造价值连城的智能应用。掌握AutoML改装套件与模型蒸馏术,让复杂问题迎刃而解。握紧算法刻刀,为数字世界雕刻文明!
391 6
|
12月前
|
机器学习/深度学习 算法 数据安全/隐私保护
基于机器学习的人脸识别算法matlab仿真,对比GRNN,PNN,DNN以及BP四种网络
本项目展示了人脸识别算法的运行效果(无水印),基于MATLAB2022A开发。核心程序包含详细中文注释及操作视频。理论部分介绍了广义回归神经网络(GRNN)、概率神经网络(PNN)、深度神经网络(DNN)和反向传播(BP)神经网络在人脸识别中的应用,涵盖各算法的结构特点与性能比较。

热门文章

最新文章

相关产品

  • 人工智能平台 PAI