我们花了两年时间让 AI 学会了"思考"。现在,百炼 CLI 让它学会了"做事"——画图、配音、做视频、写文案,全在一个终端里。这不是又一个工具评测,这是我在一个下午里,看着一个命令行工具把"想法"变成"产品"的全部记录。
0. 那个下午,我的AI客户端突然会画画了
事情要从一个很普通的下午说起。
我在 WorkBuddy 里看到一条系统提示:"bailian-cli skill 已可用"。说实话,我第一反应是——又一个 npm 包而已。现在的 CLI 工具多如牛毛,装完 --help 看一下,然后扔进 node_modules 的深渊,再也不见。
但这个不一样。
因为我随口说了一句:"帮我生成一套亚马逊电商主图,6 张,黑色男装 T 恤"。然后我就看着终端一行行刷出 JSON,文件夹里无声无息地多了 12 张 PNG,每张 4-5MB,纯白背景,1:1 正方形,标准的亚马逊主图规格。
从我说出那句话到图片出现在文件夹里,全程没有超过三分钟。
我没有打开 Photoshop。我没有找设计师。我甚至没有手动敲过一行 bl 命令——是 WorkBuddy 自动理解了我的意图,自己调用了百炼 CLI,自己写了提示词,自己生成了图片。
那一刻我突然意识到:这不是一个"工具"。这是一个 Agent 的"手"。
一、安装历险记——当"一行命令"撞上现实世界的复杂性
理论上的安装流程确实只有两行:
npm install -g bailian-cli
bl auth login --api-key sk-your-key
但现实世界从来不会这么温柔。我的安装过程,堪称一部微型"开发者生存指南"。
第一劫:包名不存在
文档上写的包名是 @modelstudio/cli,我照着敲,npm 返回一行冰冷的 404 Not Found。反复确认拼写,换镜像源,还是一样。最后在 npm registry 里搜了半天才发现——发布包名叫 bailian-cli。文档里的 @modelstudio 是 GitHub 组织名,不是 npm scope。
这个小小的偏差,让一个"五分钟安装"变成了十五分钟的排查。但也正是这个瞬间,让我意识到百炼 CLI 正处于从开源项目到成熟产品的过渡期——功能已经很强了,但文档的精细度还在追赶。
第二劫:Node.js 版本门槛
百炼 CLI 要求 Node.js ≥ 22.12.0。我电脑上的 nvm 稳稳地停在 v20.15.0。
"没事,nvm 升级一下就行",我这么想着。结果 nvm 下载 Node 22 的时候直接超时——国内到 Node.js 官方源的速度,懂的都懂。
换 npmmirror 镜像,还是不行。因为 nvm-windows 下载的是 .msi 安装包,而 C:\Users\ 所在的 C 盘空间已经捉襟见肘。
最后的解法很野:直接从 npmmirror 下了 Node 22.12.0 的 便携版 zip,解压到 E 盘,手动把路径加到用户 PATH 的最前面。重启 PowerShell,node -v 终于显示了 v22.12.0。
第三劫:Windows 路径地狱
安装配套 Skills 的时候,git clone 报错——路径太长,Windows 默认 260 字符限制直接炸了。一行 git config --global core.longpaths true 解决了问题。
但说实话,这三个坑踩下来,我花了将近 四十分钟。对于老手来说不算什么,但对于第一次接触 CLI 工具的新人,每一个坑都可能成为放弃的理由。
这就是百炼 CLI 目前最真实的状态:内核极强,但外壳还在抛光。 它像一把没有打磨手柄的利刃——锋利无比,但需要你知道怎么握。
不过我并不觉得这是缺点。任何革命性的工具,都是从"先让内行用起来"开始的。Git 刚出来的时候也没人觉得它"友好"。关键是看它解决了什么问题——而百炼 CLI 解决的问题,值得你花这四十分钟。
二、一个命令,四种感官——百炼 CLI 的"模型全家桶"意味着什么
装好之后,bl --help 列出来的命令让我愣了一下:
bl text chat → 文本对话(qwen3.7-max)
bl image generate → 图片生成(qwen-image-2.0)
bl video generate → 视频生成(happyhorse)
bl voice tts → 语音合成(cosyvoice)
bl voice asr → 语音识别
文本、图像、视频、语音——四种人类表达的核心模态,四种 AI 能力,一个命令前缀。
这不是一个"AI 对话工具",也不是一个"AI 绘画工具"。它是一个统一的多模态生成接口。你不需要分别去注册五个平台、管理五个 API Key、学习五套参数语法。你只需要记住一个事实:bl 后面跟什么,它就生成什么。
实测:当 qwen3.7-max 把"思考过程"摊在桌面上
我先试了最基础的文本对话:
bl text chat --message "帮我写一段亚马逊T恤产品的营销文案" \
--non-interactive --output json
返回的 JSON 里有一个字段让我盯着看了很久:reasoning_content。
模型不只是给了答案,它把整个思考过程全部吐了出来:
"用户要的是亚马逊产品文案。亚马逊文案的特点:标题含核心关键词、五点描述突出卖点、产品描述用场景化语言。这件T恤的核心卖点:纯黑、纯棉、夏季、基础款。我需要从面料质感、穿着场景、搭配建议三个维度展开……"
这对普通用户来说可能只是"有意思",但对 Agent 开发者来说,这是调试和优化 prompt 的黄金素材。你再也不用猜测"模型为什么给出这个答案",你可以直接看到它的推理链路,像看 X 光片一样透视模型的决策过程。
这让我想起早期学编程时,用 console.log 看变量的变化过程。百炼 CLI 把这个能力直接内置到了模型输出里——它让 AI 的思考变得可见、可审计、可优化。
实测:从"一件黑 T 恤"到 12 张商业级产品图
然后是真正的重头戏——图片生成。
我分了三轮来测试它的极限:
第一轮:纯产品图。
提示词:"纯黑短袖男装 T 恤,纯白背景,正面悬挂展示,专业电商灯光,1:1 正方形"
--n 6,6 张图,一气呵成。然后我又加了精控提示词,生成平铺展示、领口特写。最终 12 张高清电商图,每张 4-5MB,从不同角度、不同用途覆盖了一个 T 恤 Listing 所需的所有视觉素材。
第二轮:模特上身效果(V1)。
提示词:"年轻男性模特穿着黑色 T 恤,正面全身,专业摄影棚"
结果出来了,但我皱起了眉头。图片里的模特站在纯白背景前,双臂僵硬地垂在两侧,最关键的是——构图裁切了腿部,模特没穿裤子。整个画面透着一种"影楼证件照"的味道,完全不像能打动消费者的服装展示。
第三轮:自然风大改版(V2)。
我把提示词彻底重写,加上了三个关键要素:
- 完整全身——从头到脚,含裤装搭配(米白短裤、藏蓝长裤、灰牛仔裤)
- 生活化背景——城市街头、公园、户外台阶,告别纯白摄影棚
- 自然动作——散步、倚靠栏杆、随性坐在台阶上,杜绝僵硬站姿
三组并发生成,7 张新图回来了。这一次,画面完全不一样了——模特在金色时刻的街头自然地走着,午后阳光从树叶间隙洒下来,公园木栏旁倚靠的少年带着淡淡的微笑,台阶上的坐姿随性得像抓拍。



从 V1 到 V2,本质上是同一个工具,但效果天差地别。差距不在模型,在"思考"。
这个迭代过程让我想明白了一件事:AI 生成工具的最好用法,不是让它"一次生成完美结果",而是让它快速试错,让你快速迭代。传统的电商拍摄,一组 Lookbook 从约模特、找场地、布光、拍摄到后期,至少一周。而现在,从"这太生硬了"到"这次对了",只隔了三行新的提示词和两分钟的等待。
这就是百炼 CLI 给创意工作带来的真正变革——不是替代人类的审美,而是把"试错成本"降到接近于零。
三、当 Agent 有了"手"——从"我指挥 AI"到"AI 指挥 AI"
百炼 CLI 最让我震撼的,不是它自己能做什么,而是它让 Agent 能做什么。
在这个下午的实战中,我的 workflow 是这样的:
我的输入:"帮我生成一套亚马逊电商主图,6张,黑色男装T恤,要模特上身效果"
↓
AI Agent 理解意图,自主拆解任务
↓
调用 bailian-cli Skill
↓
自动写入多组提示词(正面×3 / 侧面×2 / 背面×2)
↓
bl image generate 三组并发生成
↓
7 张 PNG 自动保存、自动重命名、自动清理旧版
↓
我打开文件夹,验收结果
从头到尾,我没有碰过键盘。 全部由Agent 自主完成了任务规划、命令编排、文件管理、结果整理。
这意味着什么?
意味着一个不会写代码的电商运营,只需要对AI说一句话,就能得到一套专业级的产品图。
意味着一个独立开发者,在写代码的间隙说"帮我的 App 生成一组 icon",三分钟后就能拿到素材继续开发。
意味着一个内容创作者,可以说"把这篇博客配上一组插画",然后去喝杯咖啡,回来就齐了。
百炼 CLI 的真正价值,不在终端里,在 Agent 的能力边界上。
过去两年,AI Agent 的发展一直有一个瓶颈:Agent 擅长"想"(推理、规划、分析),但不擅长"做"(创作、生成、生产)。百炼 CLI 解决的就是这个问题。它把阿里云百炼平台的全部模型能力,封装成了一个 Agent 可以直接调用的标准化接口。
这是从"AI 辅助人类"到"AI 辅助 AI"的一次关键跃迁。
四、12+框架兼容——为什么"跨平台"才是真正的护城河
百炼 CLI 的官方文档列了一长串兼容的 Agent 框架:
Codex · Claude Code · Qwen Code · openClaw · Cursor · Qoder · Qoder Work · opencode · Kilo Code · Cline · TRAE
这个列表的价值,不在于"多",而在于一个更深层的设计哲学:百炼 CLI 不试图成为一个 Agent 框架,它选择成为所有 Agent 框架的"能力插件"。
这是一个非常聪明的定位。
现在的 AI Agent 生态,正处于类似 2010 年移动互联网早期的"春秋战国"阶段。各框架在推理能力、代码生成、工作流编排上各有千秋,但内容生成能力是所有人的短板。百炼 CLI 做的,就是把这个短板变成所有人的长板。
三种集成姿势,对应三种使用场景
场景一:深度集成(Skill 模式)
skills add modelstudioai/skills --all -g -y
适合 WorkBuddy、Codex 这类支持 Skill 生态的框架。安装后,Agent 自动获得 bailian-cli 和 spark-video 等能力,就像给机器人装上了手臂。
场景二:灵活编排(命令行模式)
bl text chat --message "写一段小红书文案" > copy.md
bl image generate --prompt "产品配图" --out-dir ./images/
bl voice tts --text "$(cat copy.md)" --out-dir ./audio/
适合 Cursor、Claude Code 这类以代码协作为核心的场景。不需要任何集成配置,当作普通的 shell 命令使用即可——但它的输出,是文本、图片、音频,而不是代码。
场景三:轻量调用(API 模式)
百炼 CLI 实际上是百炼 API 的命令行封装。--output json 参数让所有输出都是结构化数据,方便 Agent 解析和下游处理。你甚至可以把它嵌进 CI/CD pipeline,让每次部署自动生成更新的宣传素材。
跨框架的真正意义
当你的 Agent 可以在 Cursor 里生成代码注释配图、在 WorkBuddy 里批量产出电商素材、在 Claude Code 里给技术文档自动插图——你就不再被某个特定平台绑定。你的创作能力跟着你的工作流走,而不是反过来。
这是百炼 CLI 最被低估的价值:它不是某个框架的"插件",它是整个 Agent 生态的"通用协议层"。就像 USB-C 统一了充电接口一样,bl 正在统一 Agent 的"创作接口"。
五、深度思考:百炼 CLI 到底改变了什么?
一个下午的密集使用之后,我坐在屏幕前,看着 amazon-tshirt-model 文件夹里的 7 张模特图,开始想一些更大的问题。
1. "技能民主化"不是口号,是终端里的一条命令
十年前,要生成一张商业级的产品图,你需要摄影师、模特、灯光师、后期修图师。五年前,你需要会使用 Midjourney,懂得 prompt engineering 的种种技巧。现在,你只需要在终端里说一句话——甚至不用你自己说,你的 Agent 帮你说。
这不仅仅是效率提升。这是创意生产方式的范式转移。
当创作的门槛从"专业技能"降到"清晰表达",整个创意产业的权力结构就被重构了。小团队、独立开发者、个体创作者突然拥有了和大公司一样的视觉生产能力。
2. CLI 界面不是"退步",是"最深的进步"
有人可能会说:现在都 2026 年了,还在用命令行?GUI 不香吗?
我的看法正好相反。CLI 是 AI Agent 时代的"母语"。
GUI 是为人类设计的——你需要看、点、拖、拽。但 Agent 不需要界面,Agent 需要的是可脚本化的、结构化的、可组合的接口。CLI 恰好满足了这一切:
--output json让 Agent 可以精确解析结果- 管道符
|让命令可以自由组合 - shell 脚本让复杂工作流可以自动编排
百炼 CLI 选择了命令行作为入口,不是因为它做不到 GUI,而是因为它知道真正的用户不是人类,是 Agent。人类只是 Agent 背后的"需求提出者"。
3. "AI 生成"的终点不是取代人类,是加速迭代
V1 到 V2 的模特图迭代教会了我一件事:AI 最好的用法不是"一键生成完美结果",而是"三秒试错,三秒改进"。
传统的创意流程是:构思 → 执行 → 评估 → 修改 → 再评估。每个"执行"环节都耗时巨大,导致你不敢轻易推翻重来。而百炼 CLI 把"执行"时间从几天压缩到几秒,让你可以在十分钟内完成传统流程中需要一周的迭代。
你的审美和判断力,第一次不再被"执行成本"拖累。
这就是为什么我不担心 AI 会取代创作者。AI 取代的是"执行",放大的却是"决策"和"审美"——而这些,恰恰是人类的绝对优势。
六、坦诚的总结:它好在哪里,还差在哪里
它改变游戏规则的地方
| 能力 | 为什么重要 |
|---|---|
| Agent 原生调用 | 它不是给人用的,是给 Agent 当"手"用的——这从根本上改变了工具的设计范式 |
| 全模态统一接口 | 一套认证、一套命令、一套输出格式搞定图文音视频,消除多平台切换的认知负担 |
| 思考过程透明化 | reasoning_content 让模型推理可视化,对 Agent 调试和 prompt 优化至关重要 |
| 跨框架无缝兼容 | 12+ Agent 框架支持,不绑定生态,能力跟着你的 workflow 走 |
| 零边际成本试错 | 从 V1 到 V2 的迭代只花了 2 分钟——这在传统创意流程中需要一周 |
它还需要打磨的地方
| 问题 | 严重程度 | 影响 |
|---|---|---|
| 文档细节(包名、版本要求)不准确 | 中 | 新手可能在一开始就放弃 |
bl image generate 参数不够丰富 |
低 | 对比 Midjourney 的精细控制,还有提升空间 |
| Windows 路径兼容性 | 中 | Git 检出和路径长度问题需要手动处理 |
| 社区生态还在早期 | 低 | 目前只有官方 Skill 仓库,第三方贡献较少 |
坦诚的推荐
如果你是以下人群,现在就装:
- 🔧 Agent 开发者——这是你 Agent 缺失的"手"
- 🛒 电商运营——批量主图 + 文案,一个人管一条 Listing
- 🎨 内容创作者——从想到做,只差一条
bl命令 - 🎮 独立开发者——游戏素材、UI 原型、宣发图,不求人
如果你是这样的,可以再等等:
- 需要极致参数控制的 AI 绘画高手(
bl image generate目前更偏向"快速出图"而非"精细调参") - 完全不想碰命令行的纯 GUI 用户(虽然已经够简单,但 CLI 终究是 CLI)
结尾:那个下午教会我的事
写到这里,我回头看了看那个文件夹。
amazon-tshirt-model 里面的 7 张模特图,从城市街头到公园木栏,从正午阳光到金色时刻——每一张都是真实的产品级素材,每一张都可以直接上传到亚马逊后台。而它们的诞生,只因为我在一个下午的对话里说了三句话。
第一句是"帮我生成一套主图"——Agent 帮我做到了。
第二句是"太生硬了,要全身穿裤子的,自然一点"——Agent 理解了我的反馈,重写了一组完全不同的提示词,然后给了我 7 张全新的、令人满意的结果。
第三句是"帮我写一篇文章记录这件事"——你现在看到的这篇文章,从构思到成文,也是在同一个对话里完成的。
当 Agent 学会了"动手",我们终于可以专注做人类最擅长的事:提出更好的问题,追求更高的标准,打磨更细腻的审美。
百炼 CLI 不是一个完美的工具,但它是那种让你看到"未来已来"的工具——不需要等五年,不需要什么"技术突破",现在就摆在你的终端里,等着你敲下第一行命令。