教 Agent 用 Gemini 生成自己的头像

简介: 让图像生成专家 agent 打开浏览器连接 Gemini 生成图片,再由 HR agent 调飞书 API 设为群头像。两个 agent 各管各的,整个过程自动完成。从浏览器配置到图片生成,一步步踩坑记录。

教 Agent 用 Gemini 生成自己的头像

我从 OpenClaw 出来就一直在折腾各种玩法,除了有时候工作比较忙或太累就顾不上折腾。最近想时不时分享一些自己折腾的经验。

这次折腾的内容是:让图像生成专家 agent 打开浏览器,连 Gemini 生成图片,然后由另一个 agent(HR)调飞书 API 把图片设成群头像。两个 agent 各管各的,一个负责画,一个负责换。整个过程 agent 自己完成,我只需要看结果。听起来很简单,实际上我花了好几天才折腾出来。

为什么要搞这个

因为我有一堆飞书群,每个群是一个 agent,有图像生成专家、3D 打印专家、HR 管家,还有写博客的小博。这些群都没有头像,长得一模一样,找起来费劲,而且也太丑了。想给它们换个头像,但群太多不想一个个换,就让龙虾自己给自己换头像。我自己有 Gemini 会员,就直接用它的图片生成功能来生成头像。

浏览器就是第一道坎

要让图像生成专家 agent 用 Gemini 生图,得先让它能操作浏览器。我之前一直用 Chrome,但 agent 打开的 Chrome 跟我自己日常用的是同一个,经常搞混。有时候 agent 还没干完活,我手贱把窗口关了;有时候我自己在查东西,agent 把我的标签页关了,我和 agent 在互相伤害。

后来我去搜了一下社区里大家是怎么做的,有些人提到了 Brave 浏览器。和 Chrome 一样内核的开源浏览器,功能上和 Chrome 差距不大。我就计划让 agent 只用这个浏览器,而我用 Chrome,这样就不会误开误关了。但光换个浏览器不够,还得配置一些端口信息让 agent 能连上去操作。这个配置过程折腾了好几次,中间它还会自己关浏览器、用错配置文件,沟通了好几轮才完全搞定。

就像教一个实习生用公司电脑。不是告诉他"这是电脑"就完了,还得教他别随手关机、别拔网线、别把工作窗口关了。

Agent 操作浏览器才是大坑

浏览器搞定了,开始让图像生成专家 agent 通过浏览器去 Gemini 生图。第一轮就翻车了,它连生成图片的按钮都找不到。

好不容易搞定了按钮的问题,又开始下载错图片。Gemini 的页面会保留上一次生成的结果,agent 下载的时候分不清哪个是新的哪个是旧的,很自信地把旧图拿来交差。

折腾了两三轮之后终于能拿到正确的图片了。整个流程就是每次它找错了,我就告诉它哪里错了,找对了之后就把正确的做法更新到 skill 里,这样下次就不会再犯。

像教小孩,你得一遍遍说,直到他记住。

实际跑起来

第一次成功后,我让 HR 用定时任务每天晚上 11 点开始,每个小时换一个群的头像(因为 GLM 套餐有 5 小时限额,经常让 agent 半夜跑任务,不影响白天干活)。但现实没那么美好,HR 时不时就会"发癫",不是改头像而是往群里发一条消息。我第二天才发现,让它更正,同时更新它的 skill,把这种错误模式记下来。

实际的流程比想象的复杂:HR 先扫描发现谁还没换头像,然后把任务发给图像生成专家。但 HR 不会等生成专家画完,而是等到第二次轮询的时候再去图像生成专家那里拿上一轮的头像来更新。

经过反复更正后,这个流程的成功率肉眼可见地慢慢上升,但还是不及预期。基本上没有一次就能搞定的,都要不断调教。

最后

Agent 不是一次写出来的,是一点点教出来的。

这个事本身看着不大,就是换几个头像嘛。至少现在这些群看起来不那么丑了。但看着一只啥也不会的龙虾慢慢变聪明,一开始啥也不会让你气得想骂人,慢慢看到它学会了又有点成就感。有耐心的话挺有意思的,没耐心的话就别折腾了。

相关文章
|
10天前
|
人工智能 JSON 供应链
畅用7个月无影 JVS Claw |手把手教你把JVS改造成「科研与产业地理情报可视化大师」
LucianaiB分享零成本畅用JVS Claw教程(学生认证享7个月使用权),并开源GeoMind项目——将JVS改造为科研与产业地理情报可视化AI助手,支持飞书文档解析、地理编码与腾讯地图可视化,助力产业关系图谱构建。
23452 10
畅用7个月无影 JVS Claw |手把手教你把JVS改造成「科研与产业地理情报可视化大师」
|
14天前
|
人工智能 缓存 BI
Claude Code + DeepSeek V4-Pro 真实评测:除了贵,没别的毛病
JeecgBoot AI专题研究 把 Claude Code 接入 DeepSeek V4Pro,跑完 Skills —— OA 审批、大屏、报表、部署 5 大实战场景后的真实体验 ![](https://oscimg.oschina.net/oscnet/up608d34aeb6bafc47f
4867 16
Claude Code + DeepSeek V4-Pro 真实评测:除了贵,没别的毛病
|
15天前
|
人工智能 JSON BI
DeepSeek V4 来了!超越 Claude Sonnet 4.5,赶紧对接 Claude Code 体验一把
JeecgBoot AI专题研究 把 Claude Code 接入 DeepSeek V4Pro 的真实体验与避坑记录 本文记录我将 Claude Code 对接 DeepSeek 最新模型(V4Pro)后的真实体验,测试了 Skills 自动化查询和积木报表 AI 建表两个场景——有惊喜,也踩
5858 14
|
4天前
|
人工智能 缓存 Shell
Claude Code 全攻略:命令大全 + 实战工作流(完整版)
Claude Code 是一款运行在终端环境下的 AI 编码助手,能够直接在项目目录中理解代码结构、编辑文件、执行命令、执行开发计划,并支持持久化记忆、上下文压缩、后台任务、多模型切换等专业能力。对于日常开发、项目维护、快速重构、代码审查等场景,它可以大幅减少手动操作、提升编码效率。本文从常用命令、界面模式、核心指令、记忆机制、图片处理、进阶工作流等维度完整说明,帮助开发者快速上手并稳定使用。
862 1
|
3天前
|
前端开发 API 内存技术
对比claude code等编程cli工具与deepseek v4的适配情况
DeepSeek V4发布后,多家编程工具因未适配其强制要求的`reasoning_content`字段而报错。本文对比Claude Code、GitHub Copilot、Langcli、OpenCode及DeepSeek-TUI等主流工具的兼容性:Claude Code需按官方方式配置;Langcli表现最佳,开箱即用且无报错;Copilot与OpenCode暂未修复问题;DeepSeek-TUI尚处早期阶段。
823 2
对比claude code等编程cli工具与deepseek v4的适配情况
|
1月前
|
人工智能 自然语言处理 安全
Claude Code 全攻略:命令大全 + 实战工作流(建议收藏)
本文介绍了Claude Code终端AI助手的使用指南,主要内容包括:1)常用命令如版本查看、项目启动和更新;2)三种工作模式切换及界面说明;3)核心功能指令速查表,包含初始化、压缩对话、清除历史等操作;4)详细解析了/init、/help、/clear、/compact、/memory等关键命令的使用场景和语法。文章通过丰富的界面截图和场景示例,帮助开发者快速掌握如何通过命令行和交互界面高效使用Claude Code进行项目开发,特别强调了CLAUDE.md文件作为项目知识库的核心作用。
25092 65
Claude Code 全攻略:命令大全 + 实战工作流(建议收藏)

热门文章

最新文章