百炼 Skills 实战:spark-video——让零基础用户一句话做出完整AI视频

简介: spark-video 是百炼平台推出的AI视频端到端Skill,封装Qwen编剧、HappyHorse渲染、Qwen-VL质检、CosyVoice配音等多模态能力,用户仅需一句话描述+4次确认,即可零门槛生成完整MP4视频,费用透明、流程可控,专为小白打造“输入即成片”体验。(239字)

背景

AI 视频生成是 2026 年百炼平台上增长最快的使用场景之一。但从用户反馈来看,真正能从"注册账号"走到"做出成片"的用户比例并不高。

核心阻碍不是技术能力,而是:

  1. 不知道选什么模型(HappyHorse 1.0 vs 1.1?text-to-video vs image-to-video?)
  2. API 调用费用不透明,怕烧钱试错
  3. 单模型只能出片段,从"5秒片段"到"完整视频"的路径缺失

spark-video 就是针对这些问题设计的:把百炼 AI 视频相关的最佳实践打包成一个 Skill,让用户跳过学习曲线,直接获得"一句话输入→完整mp4输出"的体验。


spark-video 在百炼生态中的位置

百炼平台
├── 模型层:HappyHorse 1.1 / Qwen / Qwen-VL / CosyVoice
├── 工具层:百炼 CLI (bl)
└── 应用层:Skills(封装好的工作流)
      └── spark-video:AI 视频端到端制作

spark-video 调用的百炼模型:

模型 用途
Qwen (text) 编剧 / 分镜设计
HappyHorse 1.0/1.1 视频渲染
Qwen-VL 画面质量审核(打分)
cosyvoice-v3-flash 旁白配音(TTS)

这意味着一次 spark-video 使用 = 调用文本+视频+视觉+语音多个模型,是百炼多模态能力的综合展示。


用户体验:从0到成片

安装

npm install -g bailian-cli
bl auth login
npx skills add modelstudioai/skills --skill spark-video -g

使用

用 spark-video 做一个30秒产品广告。
产品:智能台灯,卖点是护眼+App控制。16:9。

流程(用户视角)

  1. AI 写好剧本 → 确认
  2. AI 设计分镜 + 显示预估费用 → 确认
  3. AI 渲染(自动审核+重拍低质镜头)→ 确认
  4. AI 拼接成片 → 确认,拿到 mp4

整个过程用户只需要"确认4次"。

费用透明

渲染前显示预估:

预估:text tokens ~8,000 + video tokens ~35,000
预估费用:约¥12
是否继续?[y/N]

新用户有免费额度,第一条视频基本零成本。


设计亮点

1. 成熟方法论封装

spark-video 不是"又一个API wrapper"。它封装了大量实践积累:

  • 剧本拆镜逻辑(如何把一句话拆成适合渲染的多个镜头)
  • 角色一致性管理(避免"变脸"问题)
  • 质量把关策略(Qwen-VL 打分 + 自动重渲)
  • 并行渲染调度(组内串行保连续、组间并行加速)

2. 确认关卡设计

4+2 个 GATE 节点:

  • GATE 0:选择模式(自动/精细控制)
  • GATE 0.5:BGM 选择
  • GATE 1:剧本确认
  • GATE 2:分镜+费用确认
  • GATE 3:渲染画面确认
  • GATE 4:成片确认

每个 GATE 都允许回退修改,把控制权交给用户。

3. 面向小白

核心设计理念:用户不需要懂模型、不需要懂参数、不需要懂视频制作——只需要知道想要什么内容。


适用场景

场景 说明 适合度
产品宣传 30秒-2分钟产品广告 ⭐⭐⭐⭐⭐
科普内容 知识类短视频 ⭐⭐⭐⭐⭐
创意短片 社交媒体创意视频 ⭐⭐⭐⭐
短剧 故事性内容 ⭐⭐⭐⭐
长片(>5分钟) 超长内容 ⭐⭐

相关链接

导读

阿里云百炼平台(Model Studio)的 AI Skills 生态持续扩展。继金融数据分析 Skill 之后,本文介绍 spark-video——一个能让 AI Agent 自动完成从编剧到出片全流程的视频制作 Skill。

配合百炼 MCP 市场上的 HappyHorse 视频模型和 cosyvoice TTS 模型,spark-video 实现了"输入一句话 → 输出完整 mp4"的端到端能力。


百炼 + spark-video 的能力栈

用户                    spark-video Skill              百炼平台
  │                         │                           │
  │── 一句话描述 ──→        │                           │
  │                     Producer 调度               │
  │                         │                           │
  │                     Screenwriter ──→ Qwen 文本模型(剧本生成)
  │                     Director ──→ Qwen 文本模型(分镜设计)
  │                     Render ──→ HappyHorse 视频模型(画面渲染)
  │                     Clip-Review ──→ Qwen-VL(视觉质量审核)
  │                     TTS ──→ cosyvoice-v3-flash(旁白配音)
  │                     Stitch ──→ ffmpeg(本地拼接)
  │                         │                           │
  │←── 完整 mp4 ────       │                           │

调用的百炼模型

步骤 模型 用途
编剧/分镜 Qwen(文本) 剧本创作、镜头设计
渲染 HappyHorse 1.0/1.1 视频片段生成
QA 审核 Qwen-VL(视觉) 片段质量打分
配音 cosyvoice-v3-flash TTS 语音合成

快速开始

获取 API Key

百炼新用户有免费额度。前往 百炼控制台 领取 API Key。

安装

# 安装百炼 CLI
npm install -g bailian-cli
bl auth login

# 安装 spark-video Skill
npx skills add modelstudioai/skills --skill spark-video -g

使用

在 AI Agent 中输入:

用 spark-video 做一个产品广告。项目:demo,第 1 集。
产品是一款智能手表,卖点是 7 天续航和血氧监测。30秒,16:9。

实测案例:产品广告

输入

用 spark-video 做一个高端无线耳机广告。
产品图:~/Documents/headphone.webp
广告文案:"AirWave Pro——为拒绝妥协的耳朵而生。"
背景音乐循环播放。16:9。

AI 执行流程

  1. 分析文案,拆解为 5 个镜头
  2. 设计每镜头画面(产品特写→场景→参数→LOGO)
  3. 调用 HappyHorse 模型并行渲染
  4. Qwen-VL 审核每段画面质量
  5. ffmpeg 拼接 + BGM 混音
  6. 输出 projects/headphone/001/final/headphone-001.mp4

结果:12 分钟,成本约 8 元。


核心架构

6 子技能协同

spark-video 拆分为 6 个独立子技能,由 Producer 统一编排:

  • Screenwriter:根据 premise 写多场戏剧本
  • Director:将剧本转化为可渲染的 JSON 分镜
  • Cast:管理角色/场景/道具一致性
  • Clip-Review:渲染后自动质量审核
  • VFX-Review:渲染前视觉效果预审
  • Stitch:ffmpeg 合成最终视频

并行渲染 DAG

  • 同一场景的连续镜头:串行(保证画面连续性)
  • 不同场景的镜头:并行(最多 4 路)
  • 自动重试:质量低于 7/10 的镜头自动改写 prompt 重渲

4+2 确认关卡

渲染是成本最高的环节,因此在渲染前必须经过用户确认。全流程 4 个主关卡 + 2 个条件关卡,确保用户始终掌握创意和成本控制权。


适用场景

  • 产品广告(30秒-2分钟)
  • 科普/教学视频(1-5分钟)
  • 短剧/故事片(1-3分钟)
  • 社交媒体内容(抖音/快手/B站/视频号)

相关资源

相关文章
|
5天前
|
人工智能 JSON 自然语言处理
让教学更智慧:用阿里云百炼工作流,自动生成中小学教材内容#小有可为#有温度的AI
通过可视化工作流编排,将大模型推理能力转化为标准化的教学内容生成引擎。教师只需输入教材标题和适用学段,即可自动获得结构完整、符合课程标准的章节内容,大幅降低备课门槛,助力教育资源均衡化。
455 123
|
7天前
|
人工智能 定位技术 SEO
我学 GEO 第 15 天:终于知道AI GEO该如何做?
我是暴走的莉莉酱,边旅行边研究AI GEO的数字游民。专注普通人如何提升“AI可见度”——让AI在回答用户问题时准确识别、理解并推荐你。不讲玄学,只做可测、可调、可持续的GEO实践。
436 126
|
9天前
|
机器学习/深度学习 人工智能 调度
🐴 HappyHorse 1.1 现已上线阿里云百炼!快来查收模型使用指南,现在调用享 6 折~
HappyHorse 1.1 是新一代视频生成大模型,全面升级动态表现力、角色一致性、指令遵循、视觉质感与音画协同能力。支持I2V/T2V/R2V三类生成,适配短剧、电商广告、品牌营销等场景,提供高质、流畅、可控的AI视频生产力。
736 5
🐴 HappyHorse 1.1 现已上线阿里云百炼!快来查收模型使用指南,现在调用享 6 折~
|
7天前
|
缓存 人工智能 运维
阿里云618百炼大模型Qwen3.7-Max功能、免费试用、订阅计费、配置接入详解
Qwen3.7-MAX是阿里云百炼平台推出的通义千问3.7系列旗舰大语言模型,专为智能体时代复杂任务打造,依托阿里云全域算力与自研技术,在逻辑推理、长文本处理、代码工程、长周期自主执行等领域达到行业顶尖水平。2026年618期间,该模型推出多重免费试用权益、按量计费5折、订阅套餐优惠等专属福利,覆盖个人开发者、团队与企业全场景需求,以下从核心功能、免费试用、订阅计费、配置接入四方面展开详细解析。
436 123
|
5天前
|
人工智能 自然语言处理 API
阿里云Token Plan团队版解析:功能、三档套餐与省钱订阅指南
阿里云百炼平台推出的Token Plan团队版,是面向企业与团队的AI大模型订阅服务,以Credits为统一计量单位,整合文本与图像生成模型,提供团队管理、数据安全、多工具兼容等核心能力,解决团队零散订阅AI服务的管理混乱、成本失控、数据安全等痛点。本文将从核心定位、套餐详情、计费规则、团队管理、工具兼容、便宜订阅技巧等方面,全面解析Token Plan团队版,帮助企业与团队高效、低成本地使用AI服务。
322 108
|
14天前
|
Linux 程序员 数据格式
【2026最新】Notepad++下载、安装和使用一篇搞定(附中文版安装包)
Notepad++ 是一款免费开源、轻量高效的 Windows 文本编辑器,支持 C/Python/HTML 等 80+ 语言语法高亮、代码折叠、正则替换、编码转换及插件扩展,专为程序员与文本处理用户打造,完美替代系统记事本。(239字)
|
6天前
|
存储 人工智能 数据可视化
别再手动复制 Skill 了:多 Agent 时代的 Skill 管理方案
多 Agent 场景下 Skill 的统一管理与同步。
299 123
|
9天前
|
存储 人工智能 监控
QoderWork完全指南:从入门到精通,把“AI实习生”变成你的全能工作搭档
阿里云2026年推出的桌面端AI工作助手QoderWork,不止聊天,更可动手干活:本地运行、安全可控,支持文件整理、数据分析、PPT生成、网页开发等;内置专家套件、多Agent协作与自定义Skills,让AI真正成为你身边的“AI实习生”。

热门文章

最新文章