阿里云百炼CLI(Bailian CLI)是专为AI Agent场景打造的命令行工具,它将百炼平台的文本、图像、视频、语音、视觉理解、联网搜索、知识库检索等十余项原子能力统一封装,以轻量化、可脚本化的方式对外提供调用入口。通过百炼CLI,各类AI Agent(如Cursor、OpenClaw、Claude Code、Qoder等)无需复杂的接口开发与协议适配,即可一键接入百炼全栈AI能力,实现从单纯文本对话到多模态智能体的能力跃迁。本文将从安装配置、鉴权设置、主流AI Agent接入、图像/视频/语音等核心能力调用、常见问题排查等方面,提供完整实操教程,帮助开发者快速完成集成与能力调用。
一、百炼CLI核心定位与价值
百炼CLI的核心定位是AI Agent能力调度器,而非直接面向终端用户的交互工具。其核心价值在于将百炼平台150余款大模型、十余项企业级应用服务及知识库、记忆、联网搜索等能力,转化为结构化、可自动化调用的命令行接口。开发者通过一行命令即可让AI Agent自动接入这些能力,无需手动配置复杂API或处理多套鉴权逻辑。详情👉访问阿里云百炼 CLI 页面 或👉访问阿里云百炼大模型服务平台页面 了解

具体而言,百炼CLI具备三大核心优势:一是全模态能力统一调用,覆盖文本生成、图像生成/编辑、视频生成/编辑、语音合成/识别、视觉理解等全类型能力,适配内容创作、素材生成、音视频制作等多元场景;二是主流Agent框架原生兼容,开箱即用支持Cursor、OpenClaw、Claude Code、Qoder、Qwen Code、Cline等主流AI Agent框架,接入即可调用10+项原子能力;三是自动化编排与脚本化,支持将模型、应用、知识库、记忆、联网搜索和文件处理等能力组合编排,实现从单点调用到多能力协同的完整任务流。
二、部署前准备工作
2.1 环境要求
百炼CLI基于Node.js开发,需提前安装Node.js 18及以上版本。可通过以下命令验证Node.js版本:
node -v
若未安装,可前往Node.js官网下载对应系统版本并完成安装。
2.2 获取阿里云百炼API Key
- 登录阿里云百炼控制台,进入“API密钥管理”页面。
- 点击“创建API Key”,生成专属API密钥(格式为
sk-xxxxxx)。 - 复制保存API Key,关闭弹窗后无法再次查看,严禁泄露。
2.3 开通百炼Token Plan(可选)
若需长期稳定、低成本使用百炼能力,建议开通百炼Token Plan。Token Plan采用Credits统一积分计费,支持全平台模型调用,适合AI Agent高频、多场景使用。开通后,CLI调用将自动抵扣Token Plan额度,无需额外按量付费。详情👉访问阿里云百炼 CLI 页面 或👉访问阿里云百炼大模型服务平台页面 了解

三、百炼CLI安装与鉴权配置
3.1 安装方式(两种可选)
方式一:AI Agent一键安装(新手推荐)
直接在支持Skill机制的AI Agent(如Cursor、Qoder、Cline)中输入以下指令,让Agent自动完成安装:
请帮我全局安装阿里云百炼CLI命令行工具:npm install -g bailian-cli
安装完成后,Agent会自动注册百炼CLI Skill至对应目录(如~/.cursor/skills/bailian-cli/)。
方式二:手动命令行安装(进阶用户)
打开终端,执行以下命令全局安装百炼CLI及配套Skills:
npm install -g bailian-cli && npx skills add modelstudioai/skills --all -g
安装完成后,可通过bailian -v或bl -v验证安装是否成功。
3.2 鉴权配置(两种方式)
方式一:AI Agent配置(新手推荐)
在AI Agent中输入以下指令,完成API Key配置:
配置我的阿里云百炼API Key是:sk-xxxxxxxxxxxxxxxxxxxxxxxx
Agent会自动执行鉴权命令,完成账户绑定。
方式二:手动命令行配置(进阶用户)
在终端执行以下命令,完成API Key鉴权:
bl auth login --api-key sk-xxxxxxxxxxxxxxxxxxxxxxxx
配置完成后,可通过bl auth status验证鉴权状态。
四、主流AI Agent接入百炼CLI
百炼CLI原生兼容主流AI Agent框架,安装完成后通常会自动注册Skill,无需额外配置即可使用。以下为常见Agent接入说明:
4.1 Cursor接入
- 安装百炼CLI后,Cursor会自动在
~/.cursor/skills/bailian-cli/目录注册Skill。 - 重启Cursor,即可通过自然语言指令调用百炼能力。
- 示例指令:
帮我生成6张白色无线蓝牙耳机电商主图。
4.2 OpenClaw接入
- 安装百炼CLI后,OpenClaw会自动加载百炼CLI Skill。
- 在OpenClaw Web UI或终端中,直接输入自然语言指令即可调用。
- 示例指令:
帮我生成一段30秒产品演示视频。
4.3 Claude Code/Cline接入
- 安装百炼CLI后,Cline会自动在
~/.cline/skills/bailian-cli/目录注册Skill。 - 在Cline中输入自然语言指令,即可触发百炼CLI调用。
- 示例指令:
帮我将这段文案转换为语音。
4.4 Qoder/Qwen Code接入
- 安装百炼CLI后,Qoder会自动注册百炼CLI Skill。
- 直接在Qoder中输入自然语言指令,即可调用百炼全模态能力。
- 示例指令:
帮我分析这张图片并生成描述文案。
五、核心能力调用实操(图像/视频/语音)
5.1 图像生成与编辑能力
(1)基础图像生成
调用Qwen-Image 2.0模型生成指定风格、用途的图片:
# 生成6张白色无线蓝牙耳机电商主图
bailian image generate --num 6 --prompt "白色无线蓝牙耳机,简约风格,电商主图,高清,无水印"
# 指定模型生成创意图片
bailian image generate --model qwen-image-2.0 --num 4 --prompt "科幻风格的城市夜景,赛博朋克,霓虹灯光"
(2)图像编辑
支持多图合并、参考图编辑、主体一致性保持等功能:
# 基于参考图编辑图片
bailian image edit --img ./original.png --prompt "将图片中的红色改为蓝色,保持其他元素不变"
# 多图合并编辑(最多9张参考图)
bailian image edit --img ./img1.png,./img2.png --prompt "合并两张图片,生成一张包含两个主体的新图片"
5.2 视频生成与编辑能力
(1)文生视频(T2V)
调用HappyHorse-1.0模型生成指定时长、内容的视频:
# 生成30秒白色无线蓝牙耳机产品演示视频
bailian video generate --type t2v --duration 30 --prompt "白色无线蓝牙耳机产品演示视频,展示佩戴效果、音质、续航,高清,无水印"
# 指定模型生成创意视频
bailian video generate --type t2v --model happyhorse-1.0 --duration 60 --prompt "自然风光视频,山川河流,四季变换,唯美治愈"
(2)图生视频(R2V)
基于单张或多张参考图片生成动态视频:
# 基于参考图片生成20秒动态视频
bailian video generate --type r2v --img ./product.png --duration 20 --prompt "让图片中的产品旋转展示,添加动态光影效果"
# 多张参考图生成连贯视频
bailian video generate --type r2v --img ./img1.png,./img2.png --duration 40 --prompt "基于两张图片生成连贯的动态视频,展示产品使用流程"
(3)视频编辑
支持自然语言视频编辑,修改画面、剧情、时长等:
# 编辑现有视频,添加字幕与背景音乐
bailian video edit --video ./demo.mp4 --prompt "为视频添加中文字幕,背景音乐选择舒缓的纯音乐,时长保持不变"
# 基于参考图修改视频画面
bailian video edit --video ./demo.mp4 --img ./ref.png --prompt "将视频中的产品替换为参考图中的产品,保持视频流畅度"
5.3 语音合成与识别能力
(1)语音合成(TTS)
调用CosyVoice-v3-flash模型,将文本转换为自然语音,支持多音色、多语言、声音克隆:
# 默认音色合成中文语音
bailian speech tts --text "阿里云百炼CLI简化AI能力调用流程,让AI Agent具备全模态能力"
# 指定音色与语言合成语音
bailian speech tts --voice Cherry --language English --text "Bailian CLI empowers AI Agents with multi-modal capabilities"
# 极速声音克隆(5-20秒样本)
bailian speech tts --clone ./voice_sample.wav --text "这是克隆后的语音,音色与样本一致"
(2)语音识别(ASR)
调用FunAudio-ASR模型,将语音转换为文本,支持30种语言、7种中文方言:
# 识别本地语音文件
bailian speech asr --audio ./audio.wav
# 识别并指定输出语言
bailian speech asr --audio ./audio.wav --language Chinese
5.4 全模态对话能力
支持文本、图像、音频、视频混合输入,实现多模态交互:
# 全模态对话,分析图片并生成文案
bailian omni --img ./product.png --prompt "分析这张图片,生成一段电商产品描述文案"
# 全模态对话,结合语音与图片
bailian omni --audio ./query.wav --img ./img.png --prompt "根据语音指令和图片内容,完成指定任务"
六、其他核心能力调用
6.1 文本生成能力
调用Qwen3.7系列模型,完成文案创作、代码编写、办公自动化等任务:
# 基础文案生成
bailian text generate --prompt "撰写一篇办公自动化工具使用说明"
# 指定模型生成代码
bailian text generate --model qwen3.7-plus --prompt "编写Python文件遍历脚本,支持递归遍历指定目录" --max-token 1500
6.2 联网搜索能力
让AI Agent具备实时获取外网信息能力,适合资讯整理、行业分析、热点复盘:
# 联网搜索指定信息
bailian web search --query "2026年AI Agent发展趋势"
# 联网搜索并生成总结
bailian web search --query "阿里云百炼CLI最新功能" --summary true
6.3 知识库检索能力
支持多模态知识库增删改查与检索,适合搭建企业私域问答、智能客服:
# 上传文件至知识库
bailian rag upload --file ./document.pdf --name "企业知识库"
# 检索知识库信息
bailian rag query --query "企业产品介绍" --kb "企业知识库"
七、常见问题排查
7.1 安装失败
- 检查Node.js版本是否≥18,若版本过低,升级Node.js后重新安装。
- 检查网络是否通畅,尝试切换npm源:
npm config set registry https://registry.npmmirror.com/。 - 若权限不足,使用
sudo命令(Linux/macOS)或以管理员身份运行终端(Windows)。
7.2 鉴权失败
- 检查API Key是否正确,格式为
sk-xxxxxx。 - 重新执行鉴权命令:
bl auth login --api-key YOUR_API_KEY。 - 检查网络是否可访问阿里云百炼服务。
7.3 能力调用失败
- 检查命令格式是否正确,参数是否完整。
- 确认Token Plan额度充足(若已开通)。
- 检查模型名称是否正确,需与百炼平台支持的模型名称完全一致。
- 重启终端或AI Agent,重新加载配置。
7.4 AI Agent无法调用CLI
- 确认百炼CLI已全局安装:
npm list -g bailian-cli。 - 检查Skill是否已注册至对应Agent目录(如
~/.cursor/skills/bailian-cli/)。 - 重启AI Agent,重新加载Skill。
八、总结
阿里云百炼CLI是AI Agent接入全模态AI能力的高效工具,通过简单的安装与配置,即可让各类AI Agent具备图像生成/编辑、视频生成/编辑、语音合成/识别、联网搜索、知识库检索等十余项核心能力。无论是个人开发者调试智能体功能,还是企业团队搭建复合型AI应用,百炼CLI都能大幅降低集成门槛,提升开发效率。
从环境准备、安装配置、AI Agent接入,到核心能力调用与问题排查,本文提供了完整的实操流程。开发者可根据自身需求,选择适合的安装与配置方式,快速完成百炼CLI与AI Agent的集成,解锁全模态能力,打造更强大、更智能的AI助手。后续可进一步探索百炼CLI的自动化编排能力,将多模态能力组合应用于复杂业务场景,实现AI技术的高效落地。