背景
AI 视频生成是 2026 年百炼平台上增长最快的使用场景之一。但从用户反馈来看,真正能从"注册账号"走到"做出成片"的用户比例并不高。
核心阻碍不是技术能力,而是:
- 不知道选什么模型(HappyHorse 1.0 vs 1.1?text-to-video vs image-to-video?)
- API 调用费用不透明,怕烧钱试错
- 单模型只能出片段,从"5秒片段"到"完整视频"的路径缺失
spark-video 就是针对这些问题设计的:把百炼 AI 视频相关的最佳实践打包成一个 Skill,让用户跳过学习曲线,直接获得"一句话输入→完整mp4输出"的体验。
spark-video 在百炼生态中的位置
百炼平台
├── 模型层:HappyHorse 1.1 / Qwen / Qwen-VL / CosyVoice
├── 工具层:百炼 CLI (bl)
└── 应用层:Skills(封装好的工作流)
└── spark-video:AI 视频端到端制作
spark-video 调用的百炼模型:
| 模型 | 用途 |
|---|---|
| Qwen (text) | 编剧 / 分镜设计 |
| HappyHorse 1.0/1.1 | 视频渲染 |
| Qwen-VL | 画面质量审核(打分) |
| cosyvoice-v3-flash | 旁白配音(TTS) |
这意味着一次 spark-video 使用 = 调用文本+视频+视觉+语音多个模型,是百炼多模态能力的综合展示。
用户体验:从0到成片
安装
npm install -g bailian-cli
bl auth login
npx skills add modelstudioai/skills --skill spark-video -g
使用
用 spark-video 做一个30秒产品广告。
产品:智能台灯,卖点是护眼+App控制。16:9。
流程(用户视角)
- AI 写好剧本 → 确认
- AI 设计分镜 + 显示预估费用 → 确认
- AI 渲染(自动审核+重拍低质镜头)→ 确认
- AI 拼接成片 → 确认,拿到 mp4
整个过程用户只需要"确认4次"。
费用透明
渲染前显示预估:
预估:text tokens ~8,000 + video tokens ~35,000
预估费用:约¥12
是否继续?[y/N]
新用户有免费额度,第一条视频基本零成本。
设计亮点
1. 成熟方法论封装
spark-video 不是"又一个API wrapper"。它封装了大量实践积累:
- 剧本拆镜逻辑(如何把一句话拆成适合渲染的多个镜头)
- 角色一致性管理(避免"变脸"问题)
- 质量把关策略(Qwen-VL 打分 + 自动重渲)
- 并行渲染调度(组内串行保连续、组间并行加速)
2. 确认关卡设计
4+2 个 GATE 节点:
- GATE 0:选择模式(自动/精细控制)
- GATE 0.5:BGM 选择
- GATE 1:剧本确认
- GATE 2:分镜+费用确认
- GATE 3:渲染画面确认
- GATE 4:成片确认
每个 GATE 都允许回退修改,把控制权交给用户。
3. 面向小白
核心设计理念:用户不需要懂模型、不需要懂参数、不需要懂视频制作——只需要知道想要什么内容。
适用场景
| 场景 | 说明 | 适合度 |
|---|---|---|
| 产品宣传 | 30秒-2分钟产品广告 | ⭐⭐⭐⭐⭐ |
| 科普内容 | 知识类短视频 | ⭐⭐⭐⭐⭐ |
| 创意短片 | 社交媒体创意视频 | ⭐⭐⭐⭐ |
| 短剧 | 故事性内容 | ⭐⭐⭐⭐ |
| 长片(>5分钟) | 超长内容 | ⭐⭐ |
相关链接
- Skills 仓库:github.com/modelstudioai/skills
- 百炼控制台:bailian.console.aliyun.com
- 百炼 CLI:安装指南
- API Key:免费领取
百炼 spark-video:HappyHorse 视频模型 + Agent Skill 实现一句话出片
导读
阿里云百炼平台(Model Studio)的 AI Skills 生态持续扩展。继金融数据分析 Skill 之后,本文介绍 spark-video——一个能让 AI Agent 自动完成从编剧到出片全流程的视频制作 Skill。
配合百炼 MCP 市场上的 HappyHorse 视频模型和 cosyvoice TTS 模型,spark-video 实现了"输入一句话 → 输出完整 mp4"的端到端能力。
百炼 + spark-video 的能力栈
用户 spark-video Skill 百炼平台
│ │ │
│── 一句话描述 ──→ │ │
│ Producer 调度 │
│ │ │
│ Screenwriter ──→ Qwen 文本模型(剧本生成)
│ Director ──→ Qwen 文本模型(分镜设计)
│ Render ──→ HappyHorse 视频模型(画面渲染)
│ Clip-Review ──→ Qwen-VL(视觉质量审核)
│ TTS ──→ cosyvoice-v3-flash(旁白配音)
│ Stitch ──→ ffmpeg(本地拼接)
│ │ │
│←── 完整 mp4 ──── │ │
调用的百炼模型
| 步骤 | 模型 | 用途 |
|---|---|---|
| 编剧/分镜 | Qwen(文本) | 剧本创作、镜头设计 |
| 渲染 | HappyHorse 1.0/1.1 | 视频片段生成 |
| QA 审核 | Qwen-VL(视觉) | 片段质量打分 |
| 配音 | cosyvoice-v3-flash | TTS 语音合成 |
快速开始
获取 API Key
百炼新用户有免费额度。前往 百炼控制台 领取 API Key。
安装
# 安装百炼 CLI
npm install -g bailian-cli
bl auth login
# 安装 spark-video Skill
npx skills add modelstudioai/skills --skill spark-video -g
使用
在 AI Agent 中输入:
用 spark-video 做一个产品广告。项目:demo,第 1 集。
产品是一款智能手表,卖点是 7 天续航和血氧监测。30秒,16:9。
实测案例:产品广告
输入:
用 spark-video 做一个高端无线耳机广告。
产品图:~/Documents/headphone.webp
广告文案:"AirWave Pro——为拒绝妥协的耳朵而生。"
背景音乐循环播放。16:9。
AI 执行流程:
- 分析文案,拆解为 5 个镜头
- 设计每镜头画面(产品特写→场景→参数→LOGO)
- 调用 HappyHorse 模型并行渲染
- Qwen-VL 审核每段画面质量
- ffmpeg 拼接 + BGM 混音
- 输出
projects/headphone/001/final/headphone-001.mp4
结果:12 分钟,成本约 8 元。
核心架构
6 子技能协同
spark-video 拆分为 6 个独立子技能,由 Producer 统一编排:
- Screenwriter:根据 premise 写多场戏剧本
- Director:将剧本转化为可渲染的 JSON 分镜
- Cast:管理角色/场景/道具一致性
- Clip-Review:渲染后自动质量审核
- VFX-Review:渲染前视觉效果预审
- Stitch:ffmpeg 合成最终视频
并行渲染 DAG
- 同一场景的连续镜头:串行(保证画面连续性)
- 不同场景的镜头:并行(最多 4 路)
- 自动重试:质量低于 7/10 的镜头自动改写 prompt 重渲
4+2 确认关卡
渲染是成本最高的环节,因此在渲染前必须经过用户确认。全流程 4 个主关卡 + 2 个条件关卡,确保用户始终掌握创意和成本控制权。
适用场景
- 产品广告(30秒-2分钟)
- 科普/教学视频(1-5分钟)
- 短剧/故事片(1-3分钟)
- 社交媒体内容(抖音/快手/B站/视频号)
相关资源
- spark-video 源码:GitHub
- 百炼 CLI:安装指南
- 百炼控制台:https://bailian.console.aliyun.com/?source_channel=hh_github
- API Key:免费领取
- 完整教程:modelstudioai.github.io/guide/