全网首发 | PAI Model Gallery一键部署阶跃星辰Step-Video-T2V、Step-Audio-Chat模型

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,100CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
简介: Step-Video-T2V 是一个最先进的 (SoTA) 文本转视频预训练模型,具有 300 亿个参数,能够生成高达 204 帧的视频;Step-Audio 则是行业内首个产品级的开源语音交互模型,通过结合 130B 参数的大语言模型,语音识别模型与语音合成模型,实现了端到端的文本、语音对话生成,能和用户自然地进行高质量对话。PAI Model Gallery 已支持阶跃星辰最新发布的 Step-Video-T2V 文生视频模型与 Step-Audio-Chat 大语言模型的一键部署,本文将详细介绍具体操作步骤。

2月18日,阶跃星辰发布了最新的 Step-Video-T2V 文生视频模型与 Step-Audio-Chat 大语言模型。其中 Step-Video-T2V 是一个最先进的 (SoTA) 文本转视频预训练模型,具有 300 亿个参数,能够生成高达 204 帧的视频;Step-Audio 则是行业内首个产品级的开源语音交互模型,通过结合 130B 参数的大语言模型、语音识别模型与语音合成模型,实现了端到端的文本、语音对话生成,能和用户自然地进行高质量对话。PAI Model Gallery 现已支持这两个最新模型的一键部署,以下为您详细介绍如何使用。

一、PAI Model Gallery 简介

Model Gallery 是阿里云人工智能平台 PAI 的产品组件,它集成了国内外 AI 开源社区中优质的预训练模型,涵盖了 LLM、AIGC、CV、NLP 等各个领域,如 Qwen,DeepSeek 等系列模型。通过 PAI 对这些模型的适配,用户可以零代码实现从训练到部署再到推理的全过程,简化了模型的开发流程,为开发者和企业用户带来了更快、更高效、更便捷的 AI 开发和应用体验。

image.png


二、一键部署 Step-Video-T2V

Step-Video-T2V 模型介绍

Step-Video-T2V 是阶跃星辰发布的最先进的 (SoTA) 文本转视频预训练模型,性能领跑全球的开源视频生成大模型,具有 300 亿参数,能够生成高达 204 帧的视频。为了提高训练和推理效率,阶跃提出了一种用于视频的深度压缩 VAE,实现了 16x16 空间和 8 倍时间压缩比。在最后阶段应用直接偏好优化 (DPO) 来进一步提高生成视频的视觉质量。Step-Video-T2V 的性能在一个新的视频生成基准 Step-Video-T2V-Eval 上进行评估,展示了其 SoTA 文本生成视频质量。
为了对开源视频生成模型的性能进行全面评测,阶跃发布并开源了针对文生视频质量评测的新基准数据集 Step-Video-T2V-Eval。该测试集包含 128 条源于真实用户的中文评测问题,旨在评估生成 image.png

视频在运动、风景、动物、组合概念、超现实、人物、3D 动画、电影摄影等 11 个内容类别上质量。

评测结果显示,Step-Video-T2V 的模型性能在指令遵循、运动平滑性、物理合理性、美感度等方面的表现均显著超过市面上既有的效果最佳的开源视频模型。

使用 PAI Model Gallery 一键部署

1. 进入 PAI Model Gallery 页面,在顶部左上角根据实际情况选择地域。在左侧导航栏选择工作空间列表,单击指定工作空间名称,进入对应工作空间内。在左侧导航栏选择快速开始 > Model Gallery

image.png

2. 在 Model Gallery 页面的模型列表中,单击找到并点击需要部署的模型卡片,例如“Step-Video-T2V”模型,进入模型详情页面。

image.png

3. 单击右上角部署:选择部署资源后,即可一键部署服务,生成一个 PAI-EAS 服务。

image.png

4. 使用推理服务。部署成功后,在服务页面可以点击“查看调用信息”获取调用的 Endpoint 和 Token,想了解服务调用方式可以点击预训练模型链接,返回模型介绍页查看调用方式说明。

image.png

image.png



三、一键部署 Step-Audio-Chat

Step-Audio-Chat 模型介绍

Step-Audio 是行业内首个产品级的开源语音交互模型,能够根据不同的场景需求生成情绪、方言、语种、歌声和个性化风格的表达,能和用户自然地进行高质量对话。模型生成的语音具有自然流畅、情商高等特征,同时也能支持不同角色的音色克隆,满足影视娱乐、社交、游戏等行业场景下应用需求。Step-Audio 展示了四项关键技术创新:
● 130B 参数多模态模型:集成理解和生成功能的单一统一模型,可执行语音识别、语义理解、对话、语音克隆和语音合成。阶跃星辰已将 130B Step-Audio-Chat 变体开源。
● 生成数据引擎:通过阶跃星辰的 130B 参数多模态模型生成高质量音频,消除了传统 TTS 对手动数据收集的依赖。利用这些数据来训练和公开发布资源高效的 Step-Audio-TTS-3B 模型,该模型具有增强的指令跟踪能力,可实现可控语音合成。
● 精细化语音控制:通过指令式控制设计实现精准调控,支持多种情绪(愤怒、喜悦、悲伤)、方言(粤语、四川话等)、唱腔(说唱、清唱)等,满足多样化的语音生成需求。
● 增强智能:通过 ToolCall 机制集成和角色扮演增强功能提高代理在复杂任务中的表现。
在 LlaMA Question、Web Questions 等 5 大主流公开测试集中,Step-Audio 模型性能均超过了行业内同类型开源模型,位列第一。Step-Audio 在 HSK-6(汉语水平考试六级)评测中的表现尤为突出,是最懂中国话的开源语音交互大模型。

image.png

使用 PAI Model Gallery 一键部署

1. 进入 PAI Model Gallery 页面,在顶部左上角根据实际情况选择地域。在左侧导航栏选择工作空间列表,单击指定工作空间名称,进入对应工作空间内。在左侧导航栏选择快速开始 > Model Gallery

image.png

2. 在 Model Gallery 页面的模型列表中,单击找到并点击需要部署的模型卡片,例如“Step-Audio-Chat”模型,进入模型详情页面。3. 单击右上角部署,填写服务名称并选择合适的部署资源后,即可一键部署服务,生成一个 PAI-EAS 服务。由于模型尺寸较大(130B),总共至少需要300G左右的显存才可以加载模型,因此请至少选用4卡80G显存的部署资源

image.png

4. 使用推理服务。部署成功后,在服务页面可以点击“查看调用信息”获取调用的 Endpoint 和 Token,想了解服务调用方式可以点击预训练模型链接,返回模型介绍页查看调用方式说明。

image.png


四、技术支持

欢迎各位小伙伴持续关注使用 PAI-Model Gallery,平台会不断更新 SOTA 模型,如果您有任何需求或建议,也可以联系我们。您可通过钉钉扫描下方二维码(或搜索钉钉群号79680024618/77450028832),加入 PAI-Model Gallery 用户交流群!

PAI ModelGallery 用户一群:

image.png


PAI ModelGallery 用户二群:

image.png


相关实践学习
使用PAI-EAS一键部署ChatGLM及LangChain应用
本场景中主要介绍如何使用模型在线服务(PAI-EAS)部署ChatGLM的AI-Web应用以及启动WebUI进行模型推理,并通过LangChain集成自己的业务数据。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
目录
打赏
0
0
0
0
3585
分享
相关文章
云上一键部署通义千问 QwQ-32B 模型,阿里云 PAI 最佳实践
3月6日阿里云发布并开源了全新推理模型通义千问 QwQ-32B,在一系列权威基准测试中,千问QwQ-32B模型表现异常出色,几乎完全超越了OpenAI-o1-mini,性能比肩Deepseek-R1,且部署成本大幅降低。并集成了与智能体 Agent 相关的能力,够在使用工具的同时进行批判性思考,并根据环境反馈调整推理过程。阿里云人工智能平台 PAI-Model Gallery 现已经支持一键部署 QwQ-32B,本实践带您部署体验专属 QwQ-32B模型服务。
DistilQwen2.5蒸馏小模型在PAI-ModelGallery的训练、评测、压缩及部署实践
DistilQwen2.5 是阿里云人工智能平台 PAI 推出的全新蒸馏大语言模型系列。通过黑盒化和白盒化蒸馏结合的自研蒸馏链路,DistilQwen2.5各个尺寸的模型在多个基准测试数据集上比原始 Qwen2.5 模型有明显效果提升。这一系列模型在移动设备、边缘计算等资源受限的环境中具有更高的性能,在较小参数规模下,显著降低了所需的计算资源和推理时长。阿里云的人工智能平台 PAI,作为一站式的机器学习和深度学习平台,对 DistilQwen2.5 模型系列提供了全面的技术支持。本文详细介绍在 PAI 平台使用 DistilQwen2.5 蒸馏小模型的全链路最佳实践。
阿里万相重磅开源,人工智能平台PAI一键部署教程来啦
阿里云视频生成大模型万相2.1(Wan)重磅开源!Wan2.1 在处理复杂运动、还原真实物理规律、提升影视质感以及优化指令遵循方面具有显著的优势,轻松实现高质量的视频生成。同时,万相还支持业内领先的中英文文字特效生成,满足广告、短视频等领域的创意需求。阿里云人工智能平台 PAI-Model Gallery 现已经支持一键部署阿里万相重磅开源的4个模型,可获得您的专属阿里万相服务。
基于机器学习的数据分析:PLC采集的生产数据预测设备故障模型
本文介绍如何利用Python和Scikit-learn构建基于PLC数据的设备故障预测模型。通过实时采集温度、振动、电流等参数,进行数据预处理和特征提取,选择合适的机器学习模型(如随机森林、XGBoost),并优化模型性能。文章还分享了边缘计算部署方案及常见问题排查,强调模型预测应结合定期维护,确保系统稳定运行。
76 0
多元线性回归:机器学习中的经典模型探讨
多元线性回归是统计学和机器学习中广泛应用的回归分析方法,通过分析多个自变量与因变量之间的关系,帮助理解和预测数据行为。本文深入探讨其理论背景、数学原理、模型构建及实际应用,涵盖房价预测、销售预测和医疗研究等领域。文章还讨论了多重共线性、过拟合等挑战,并展望了未来发展方向,如模型压缩与高效推理、跨模态学习和自监督学习。通过理解这些内容,读者可以更好地运用多元线性回归解决实际问题。
K-means聚类算法是机器学习中常用的一种聚类方法,通过将数据集划分为K个簇来简化数据结构
K-means聚类算法是机器学习中常用的一种聚类方法,通过将数据集划分为K个簇来简化数据结构。本文介绍了K-means算法的基本原理,包括初始化、数据点分配与簇中心更新等步骤,以及如何在Python中实现该算法,最后讨论了其优缺点及应用场景。
246 6
基于机器学习的人脸识别算法matlab仿真,对比GRNN,PNN,DNN以及BP四种网络
本项目展示了人脸识别算法的运行效果(无水印),基于MATLAB2022A开发。核心程序包含详细中文注释及操作视频。理论部分介绍了广义回归神经网络(GRNN)、概率神经网络(PNN)、深度神经网络(DNN)和反向传播(BP)神经网络在人脸识别中的应用,涵盖各算法的结构特点与性能比较。
使用 PAI-DSW x Free Prompt Editing图像编辑算法,开发个人AIGC绘图小助理
使用 PAI-DSW x Free Prompt Editing图像编辑算法,开发个人AIGC绘图小助理
机器学习算法的优化与改进:提升模型性能的策略与方法
机器学习算法的优化与改进:提升模型性能的策略与方法
492 13
机器学习算法的优化与改进:提升模型性能的策略与方法
CCS 2024:如何严格衡量机器学习算法的隐私泄露? ETH有了新发现
在2024年CCS会议上,苏黎世联邦理工学院的研究人员提出,当前对机器学习隐私保护措施的评估可能存在严重误导。研究通过LiRA攻击评估了五种经验性隐私保护措施(HAMP、RelaxLoss、SELENA、DFKD和SSL),发现现有方法忽视最脆弱数据点、使用较弱攻击且未与实际差分隐私基线比较。结果表明这些措施在更强攻击下表现不佳,而强大的差分隐私基线则提供了更好的隐私-效用权衡。
71 14

热门文章

最新文章

相关产品

  • 人工智能平台 PAI
  • AI助理

    你好,我是AI助理

    可以解答问题、推荐解决方案等