今日,在全球开发者大会(GDC)上,阿里云魔搭社区首发阶跃星辰最新开源的两款多模态模型,包括全球参数量最大的开源视频生成模型Step-Video-T2V,以及业界首款产品级开源语音交互模型Step-Audio。截至目前,魔搭社区已上架超过4万个开源模型,涵盖LLM、对话、语音、文生图、图生视频等多个领域,是中国最大的AI模型社区。
图|阿里云魔搭社区官网
此次在魔搭社区开源的两款模型,是近期全球多模态领域最热门的开源模型:由阶跃星辰开源的视频生成模型Step-Video-T2V和业界首款产品级开源语音交互模型Step-Audio。
Step-Video-T2V是基于300亿参数的文本转视频预训练模型,能够生成高达204帧的视频,在指令遵循、运动平滑性、物理合理性、美感度等方面表现均显著超过市面上既有的开源视频模型。
图|Step-Video-T2V-Eval测评结果
另一款上架模型Step-Audio,是业界首个产品级开源语音模型,参数规模多达1300多亿。根据Llama Question等5大主流公开测试,Step-Audio模型性能均位列第一,并在HSK-6(汉语水平考试六级)的测评中表现尤佳,是最懂中国话的开源语音交互大模型。
图|5大主流公开评测结果
目前,阶跃星辰的这两款模型均可在魔搭社区下载和体验。同时,有部署及模型微调需求的开发者和企业,还可通过阿里云人工智能平台PAI-Model Gallery实现一键部署,获取包括阶跃星辰新模型在内的200余款开源模型快速部署、训练及评测服务。
阿里云魔搭社区是MaaS理念(Model as a Service,模型即服务)的最佳实践之一,将AI模型变为直接可用的服务,为AI开发者提供模型体验、下载、调优、训练、推理、部署等一站式服务。截至目前,魔搭社区已上架千问Qwen、DeepSeek-R1、Llama、零一万物等国内外知名模型,服务超过1000万开发者。“找大模型上魔搭”已经成了AI开发者的默契。
/ END /
--直播预告--
2月26日,阿里云PolarDB开发者大会将在北京嘉瑞文化中心举行。会议聚焦云原生、国产化、Data + AI等热门话题,汇聚行业权威、分享前沿趋势!
感兴趣的小伙伴可以预约直播,或点击“阅读原文”报名参会~