百炼 Skills 实战：spark-video——让零基础用户一句话做出完整AI视频-阿里云开发者社区

百炼 Skills 实战：spark-video——让零基础用户一句话做出完整AI视频

2026-07-01 22

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： spark-video 是百炼平台推出的AI视频端到端Skill，封装Qwen编剧、HappyHorse渲染、Qwen-VL质检、CosyVoice配音等多模态能力，用户仅需一句话描述+4次确认，即可零门槛生成完整MP4视频，费用透明、流程可控，专为小白打造“输入即成片”体验。（239字）

背景

AI 视频生成是 2026 年百炼平台上增长最快的使用场景之一。但从用户反馈来看，真正能从"注册账号"走到"做出成片"的用户比例并不高。

核心阻碍不是技术能力，而是：

不知道选什么模型（HappyHorse 1.0 vs 1.1？text-to-video vs image-to-video？）
API 调用费用不透明，怕烧钱试错
单模型只能出片段，从"5秒片段"到"完整视频"的路径缺失

spark-video 就是针对这些问题设计的：把百炼 AI 视频相关的最佳实践打包成一个 Skill，让用户跳过学习曲线，直接获得"一句话输入→完整mp4输出"的体验。

spark-video 在百炼生态中的位置

百炼平台
├── 模型层：HappyHorse 1.1 / Qwen / Qwen-VL / CosyVoice
├── 工具层：百炼 CLI (bl)
└── 应用层：Skills（封装好的工作流）
      └── spark-video：AI 视频端到端制作

spark-video 调用的百炼模型：

模型	用途
Qwen (text)	编剧 / 分镜设计
HappyHorse 1.0/1.1	视频渲染
Qwen-VL	画面质量审核（打分）
cosyvoice-v3-flash	旁白配音（TTS）

这意味着一次 spark-video 使用 = 调用文本+视频+视觉+语音多个模型，是百炼多模态能力的综合展示。

用户体验：从0到成片

安装

npm install -g bailian-cli
bl auth login
npx skills add modelstudioai/skills --skill spark-video -g

使用

用 spark-video 做一个30秒产品广告。
产品：智能台灯，卖点是护眼+App控制。16:9。

流程（用户视角）

AI 写好剧本 → 确认
AI 设计分镜 + 显示预估费用 → 确认
AI 渲染（自动审核+重拍低质镜头）→ 确认
AI 拼接成片 → 确认，拿到 mp4

整个过程用户只需要"确认4次"。

费用透明

渲染前显示预估：

预估：text tokens ~8,000 + video tokens ~35,000
预估费用：约¥12
是否继续？[y/N]

新用户有免费额度，第一条视频基本零成本。

设计亮点

1. 成熟方法论封装

spark-video 不是"又一个API wrapper"。它封装了大量实践积累：

剧本拆镜逻辑（如何把一句话拆成适合渲染的多个镜头）
角色一致性管理（避免"变脸"问题）
质量把关策略（Qwen-VL 打分 + 自动重渲）
并行渲染调度（组内串行保连续、组间并行加速）

2. 确认关卡设计

4+2 个 GATE 节点：

GATE 0：选择模式（自动/精细控制）
GATE 0.5：BGM 选择
GATE 1：剧本确认
GATE 2：分镜+费用确认
GATE 3：渲染画面确认
GATE 4：成片确认

每个 GATE 都允许回退修改，把控制权交给用户。

3. 面向小白

核心设计理念：用户不需要懂模型、不需要懂参数、不需要懂视频制作——只需要知道想要什么内容。

适用场景

场景	说明	适合度
产品宣传	30秒-2分钟产品广告	⭐⭐⭐⭐⭐
科普内容	知识类短视频	⭐⭐⭐⭐⭐
创意短片	社交媒体创意视频	⭐⭐⭐⭐
短剧	故事性内容	⭐⭐⭐⭐
长片（>5分钟）	超长内容	⭐⭐

导读

阿里云百炼平台（Model Studio）的 AI Skills 生态持续扩展。继金融数据分析 Skill 之后，本文介绍 spark-video——一个能让 AI Agent 自动完成从编剧到出片全流程的视频制作 Skill。

配合百炼 MCP 市场上的 HappyHorse 视频模型和 cosyvoice TTS 模型，spark-video 实现了"输入一句话 → 输出完整 mp4"的端到端能力。

百炼 + spark-video 的能力栈

用户                    spark-video Skill              百炼平台
  │                         │                           │
  │── 一句话描述 ──→        │                           │
  │                     Producer 调度               │
  │                         │                           │
  │                     Screenwriter ──→ Qwen 文本模型（剧本生成）
  │                     Director ──→ Qwen 文本模型（分镜设计）
  │                     Render ──→ HappyHorse 视频模型（画面渲染）
  │                     Clip-Review ──→ Qwen-VL（视觉质量审核）
  │                     TTS ──→ cosyvoice-v3-flash（旁白配音）
  │                     Stitch ──→ ffmpeg（本地拼接）
  │                         │                           │
  │←── 完整 mp4 ────       │                           │

调用的百炼模型

步骤	模型	用途
编剧/分镜	Qwen（文本）	剧本创作、镜头设计
渲染	HappyHorse 1.0/1.1	视频片段生成
QA 审核	Qwen-VL（视觉）	片段质量打分
配音	cosyvoice-v3-flash	TTS 语音合成

快速开始

获取 API Key

百炼新用户有免费额度。前往百炼控制台领取 API Key。

安装

# 安装百炼 CLI
npm install -g bailian-cli
bl auth login

# 安装 spark-video Skill
npx skills add modelstudioai/skills --skill spark-video -g

使用

在 AI Agent 中输入：

用 spark-video 做一个产品广告。项目：demo，第 1 集。
产品是一款智能手表，卖点是 7 天续航和血氧监测。30秒，16:9。

实测案例：产品广告

输入：

用 spark-video 做一个高端无线耳机广告。
产品图：~/Documents/headphone.webp
广告文案："AirWave Pro——为拒绝妥协的耳朵而生。"
背景音乐循环播放。16:9。

AI 执行流程：

分析文案，拆解为 5 个镜头
设计每镜头画面（产品特写→场景→参数→LOGO）
调用 HappyHorse 模型并行渲染
Qwen-VL 审核每段画面质量
ffmpeg 拼接 + BGM 混音
输出 projects/headphone/001/final/headphone-001.mp4

结果：12 分钟，成本约 8 元。

核心架构

6 子技能协同

spark-video 拆分为 6 个独立子技能，由 Producer 统一编排：

Screenwriter：根据 premise 写多场戏剧本
Director：将剧本转化为可渲染的 JSON 分镜
Cast：管理角色/场景/道具一致性
Clip-Review：渲染后自动质量审核
VFX-Review：渲染前视觉效果预审
Stitch：ffmpeg 合成最终视频

并行渲染 DAG

同一场景的连续镜头：串行（保证画面连续性）
不同场景的镜头：并行（最多 4 路）
自动重试：质量低于 7/10 的镜头自动改写 prompt 重渲

4+2 确认关卡

渲染是成本最高的环节，因此在渲染前必须经过用户确认。全流程 4 个主关卡 + 2 个条件关卡，确保用户始终掌握创意和成本控制权。

适用场景

产品广告（30秒-2分钟）
科普/教学视频（1-5分钟）
短剧/故事片（1-3分钟）
社交媒体内容（抖音/快手/B站/视频号）

百炼 Skills 实战：spark-video——让零基础用户一句话做出完整AI视频

背景

spark-video 在百炼生态中的位置

用户体验：从0到成片

安装

使用

流程（用户视角）

费用透明

设计亮点

1. 成熟方法论封装

2. 确认关卡设计

3. 面向小白

适用场景

相关链接

百炼 spark-video：HappyHorse 视频模型 + Agent Skill 实现一句话出片

导读

百炼 + spark-video 的能力栈

调用的百炼模型

快速开始

获取 API Key

安装

使用

实测案例：产品广告

核心架构

6 子技能协同

并行渲染 DAG

4+2 确认关卡

适用场景

相关资源

阿里云百炼

热门文章

最新文章

相关电子书