速递!阶跃星辰最新开源多模态模型上线阿里云魔搭

简介: 速递!阶跃星辰最新开源多模态模型上线阿里云魔搭

今日,在全球开发者大会(GDC)上,阿里云魔搭社区首发阶跃星辰最新开源的两款多模态模型,包括全球参数量最大的开源视频生成模型Step-Video-T2V,以及业界首款产品级开源语音交互模型Step-Audio。截至目前,魔搭社区已上架超过4万个开源模型,涵盖LLM、对话、语音、文生图、图生视频等多个领域,是中国最大的AI模型社区。


图|阿里云魔搭社区官网


此次在魔搭社区开源的两款模型,是近期全球多模态领域最热门的开源模型:由阶跃星辰开源的视频生成模型Step-Video-T2V和业界首款产品级开源语音交互模型Step-Audio。


Step-Video-T2V是基于300亿参数的文本转视频预训练模型,能够生成高达204帧的视频,在指令遵循、运动平滑性、物理合理性、美感度等方面表现均显著超过市面上既有的开源视频模型。


图|Step-Video-T2V-Eval测评结果


另一款上架模型Step-Audio,是业界首个产品级开源语音模型,参数规模多达1300多亿。根据Llama Question等5大主流公开测试,Step-Audio模型性能均位列第一,并在HSK-6(汉语水平考试六级)的测评中表现尤佳,是最懂中国话的开源语音交互大模型。


图|5大主流公开评测结果


目前,阶跃星辰的这两款模型均可在魔搭社区下载和体验。同时,有部署及模型微调需求的开发者和企业,还可通过阿里云人工智能平台PAI-Model Gallery实现一键部署,获取包括阶跃星辰新模型在内的200余款开源模型快速部署、训练及评测服务。



阿里云魔搭社区是MaaS理念(Model as a Service,模型即服务的最佳实践之一,将AI模型变为直接可用的服务,为AI开发者提供模型体验、下载、调优、训练、推理、部署等一站式服务。截至目前,魔搭社区已上架千问Qwen、DeepSeek-R1、Llama、零一万物等国内外知名模型,服务超过1000万开发者。“找大模型上魔搭”已经成了AI开发者的默契。



/ END /


--直播预告--

2月26日,阿里云PolarDB开发者大会将在北京嘉瑞文化中心举行。会议聚焦云原生、国产化、Data + AI等热门话题,汇聚行业权威、分享前沿趋势!


感兴趣的小伙伴可以预约直播,或点击“阅读原文”报名参会~

相关文章
|
2月前
|
人工智能 Java API
AI 超级智能体全栈项目阶段一:AI大模型概述、选型、项目初始化以及基于阿里云灵积模型 Qwen-Plus实现模型接入四种方式(SDK/HTTP/SpringAI/langchain4j)
本文介绍AI大模型的核心概念、分类及开发者学习路径,重点讲解如何选择与接入大模型。项目基于Spring Boot,使用阿里云灵积模型(Qwen-Plus),对比SDK、HTTP、Spring AI和LangChain4j四种接入方式,助力开发者高效构建AI应用。
1408 122
AI 超级智能体全栈项目阶段一:AI大模型概述、选型、项目初始化以及基于阿里云灵积模型 Qwen-Plus实现模型接入四种方式(SDK/HTTP/SpringAI/langchain4j)
|
1月前
|
人工智能 搜索推荐 程序员
当AI学会“跨界思考”:多模态模型如何重塑人工智能
当AI学会“跨界思考”:多模态模型如何重塑人工智能
261 120
|
2月前
|
自然语言处理 机器人 图形学
腾讯混元图像3.0正式开源发布!80B,首个工业级原生多模态生图模型
腾讯混元图像3.0,真的来了——开源,免费开放使用。 正式介绍一下:混元图像3.0(HunyuanImage 3.0),是首个工业级原生多模态生图模型,参数规模80B,也是目前测评效果最好、参数量最大的开源生图模型,效果可对…
755 2
腾讯混元图像3.0正式开源发布!80B,首个工业级原生多模态生图模型
|
1月前
|
缓存 物联网 PyTorch
使用TensorRT LLM构建和运行Qwen模型
本文档介绍如何在单GPU和单节点多GPU上使用TensorRT LLM构建和运行Qwen模型,涵盖模型转换、引擎构建、量化推理及LoRA微调等操作,并提供详细的代码示例与支持矩阵。
416 2
|
1月前
|
存储 机器学习/深度学习 人工智能
54_模型优化:大模型的压缩与量化
随着大型语言模型(LLM)的快速发展,模型规模呈指数级增长,从最初的数亿参数到如今的数千亿甚至万亿参数。这种规模扩张带来了惊人的能源消耗和训练成本,同时也给部署和推理带来了巨大挑战。2025年,大模型的"瘦身"已成为行业发展的必然趋势。本文将深入剖析大模型压缩与量化的核心技术、最新进展及工程实践,探讨如何通过创新技术让大模型在保持高性能的同时实现轻量化部署,为企业和开发者提供全面的技术指导。
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
38_多模态模型:CLIP的视觉-语言对齐_深度解析
想象一下,当你看到一张小狗在草地上奔跑的图片时,你的大脑立刻就能将视觉信息与"小狗"、"草地"、"奔跑"等概念联系起来。这种跨模态的理解能力对于人类来说似乎是理所当然的,但对于人工智能系统而言,实现这种能力却经历了长期的技术挑战。多模态学习的出现,标志着AI从单一模态处理向更接近人类认知方式的综合信息处理迈出了关键一步。
|
2月前
|
人工智能 自然语言处理 IDE
模型微调不再被代码难住!PAI和Qwen3-Coder加速AI开发新体验
通义千问 AI 编程大模型 Qwen3-Coder 正式开源,阿里云人工智能平台 PAI 支持云上一键部署 Qwen3-Coder 模型,并可在交互式建模环境中使用 Qwen3-Coder 模型。
670 109
|
2月前
|
分布式计算 测试技术 Spark
科大讯飞开源星火化学大模型、文生音效模型
近期,科大讯飞在魔搭社区(ModelScope)和Gitcode上开源两款模型:讯飞星火化学大模型Spark Chemistry-X1-13B、讯飞文生音频模型AudioFly,助力前沿化学技术研究,以及声音生成技术和应用的探索。
270 2

热门文章

最新文章