阿里云百炼支持哪些AI大模型？文本生成、图像生成、语音合成及视频编辑等模型整理-阿里云开发者社区

阿里云百炼支持哪些AI大模型？文本生成、图像生成、语音合成及视频编辑等模型整理

2025-12-02 2847

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 阿里云百炼支持通义千问、通义万相等自研模型及DeepSeek、Kimi、Llama等第三方大模型，覆盖文本生成、图像生成、语音合成、视频生成、向量计算等多类AI能力，助力开发者高效构建应用。新用户可免费领取最高5000万Tokens。

阿里云百炼支持哪些大模型？不仅支持自家的通义千问、通义万相等，还支持第三方大模型，如DeepSeek、Kimi、GLM-4.5、Llama、百川、MiniMax等模型。阿里云百炼支持的模型类型包括文本生成、图像生成、语音合成、语音识别、视频生成、文本向量、多模态向量、角色扮演等类型。阿小云分享阿里云百炼支持大模型整理：

阿里云百炼AI大模型支持.png
阿里云百炼AI大模型

阿里云活动中心查看AI大模型

阿里云活动中心：https://t.aliyun.com/U/emyGuZ 查询AI大模型活动，新用户开通阿里云百炼平台，免费领取每个模型100万Tokens，最高可以领取5000万Tokens如下图：

免费领取阿里云百炼AI大模型Tokens

一、文本生成模型

文本生成模型分为通用大语言模型、多模态模型和领域模型：

1、通用大语言模型：

通义千问大语言模型：商业版（通义千问Max、通义千问Plus、通义千问Flash）、开源版（Qwen3、Qwen2.5）、超长文档模型通义千问Long。第三方模型包括DeepSeek、Kimi、GLM-4.5等。

2、多模态模型

多模态模型：视觉理解模型通义千问VL、视觉推理模型QVQ、音频理解模型通义千问Audio、全模态模型通义千问Omni。

3、领域模型

领域模型：代码模型、数学模型、翻译模型、法律模型、数据挖掘模型、深入研究模型、意图理解模型、角色扮演模型。

二、图像生成模型

图像生成模型分为文生图和图像编辑：

1、文生图

通义千问文生图：在复杂文本渲染方面表现突出，特别是中英文文本渲染。
通义万相文生图：适用于生成证件照、电商主图、模特图、各种风格人像图（动漫、国风、二次元等）。
第三方模型：Stable Diffusion和FLUX。
更多模型：创意海报生成、创意文字生成-WordArt锦书

2、图像编辑

通义千问图像编辑：支持中英文提示词输入，可实现风格迁移、文字修改、物体编辑等复杂图文编辑操作。
通义万相图像编辑：适用于扩图、去水印、风格迁移、背景生成、图像修复、图像美化等场景。
更多模型：通义千问图像翻译、通义万相涂鸦作画、通义万相图像局部重绘、人像风格重绘、图像背景生成、图像画面扩展、图像画面扩展、人物实例分割、图像擦除补全、虚拟模特、鞋靴模特、人物写真生成-FaceChain、AI试衣

三、语音合成与识别模型

语音合成与识别分为语音合成和语音识别/翻译：

1、语音合成

Qwen-TTS-Realtime、Qwen-TTS、CosyVoice和Sambert可实现文本转语音，适用于智能语音客服、有声读物、车载导航、教育辅导等场景。

2、语音识别/翻译

Fun-ASR、Gummy、Paraformer和SenseVoice可实现语音转文本，适用于实时会议记录、实时直播字幕、电话客服等场景。此外，Gummy还支持语音翻译。

四、视频编辑与生成模型

视频编辑与生成分为文生视频、图生视频和视频编辑：

1、文生视频

文生视频：一句话生成视频，视频风格丰富，画质细腻。

2、图生视频

首帧生视频：以输入图像作为视频首帧，结合提示词生成完整视频。
首尾帧生视频：提供首帧与尾帧图像，结合提示词生成过渡自然的视频。
多图生视频：支持输入一张或多张图片，参考图片中的主体或背景，并结合提示词生成视频。
图+动作模板生成舞蹈视频：舞动人像AnimateAnyone基于人物图片和动作视频生成舞蹈视频。

图+音频生成对口型视频：

通义万相-数字人基于人物图片和音频，动作幅度大且自然，支持全身、半身、肖像等多种画幅，适合唱歌、表演等场景。
悦动人像EMO基于人物图片和音频，口型与表情表现力强，支持肖像、半身，适合人物特写场景。
灵动人像LivePortrait基于人物图片和音频，适合语音播报场景。

图+表情模板生成表情包视频：表情包Emoji基于人脸图片和预设的人脸动态模板，生成人脸表情包视频。

3、视频编辑

通用视频编辑：基于输入的文本提示词、图片和视频，可执行多种视频编辑任务。例如，通过提取输入视频的运动特征，并结合提示词生成新的视频。

视频口型替换：声动人像VideoRetalk基于人物视频和音频，适合短视频制作、视频翻译等场景。

视频风格转换：视频风格重绘可将视频转换为日式漫画、美式漫画等风格。

五、向量模型

向量模型分为文本向量和多模态向量：

1、文本向量

文本向量：将文本转换成一组可以代表文字的数字，用于搜索、聚类、推荐、分类等。

2、多模态向量

多模态向量：将文本、图像、语音转换成一组数字，用于音视频分类、图像分类、图文检索等。

六、行业模型

行业模型如通义法睿、意图理解：

1、通义法睿

通义法睿：适用于法律咨询、案例分析和法规解读等。

2、多模态向量

意图理解：意图理解模型能够在毫秒级时间内解析用户意图，并选择合适工具来解决用户问题。

更多关于阿里云百炼大模型及收费标准，请参考阿里云百炼官方页面：https://t.aliyun.com/U/GKHJv2

阿里云百炼支持哪些AI大模型？文本生成、图像生成、语音合成及视频编辑等模型整理

阿里云活动中心查看AI大模型

一、文本生成模型

1、通用大语言模型：

2、多模态模型

3、领域模型

二、图像生成模型

1、文生图

2、图像编辑

三、语音合成与识别模型

1、语音合成

2、语音识别/翻译

四、视频编辑与生成模型

1、文生视频

2、图生视频

3、视频编辑

五、向量模型

1、文本向量

2、多模态向量

六、行业模型

1、通义法睿

2、多模态向量

阿里云百炼

热门文章

最新文章

相关电子书