Rokid AI 赛道铜奖 [奖金10000元]:烹饪实时辅助智能体开发总结分享

简介: 本项目基于Rokid眼镜与灵珠智能体平台,打造专为厨房场景优化的AI烹饪助手。聚焦高频痛点,采用单Agent架构实现灵活交互、上下文记忆与技能扩展,集成拍照识材、实时指导、多菜统筹等8大功能,并针对小屏显示精简提示、优化进度跟踪,兼顾实用性与创新性。(239字)

在决定开发这个项目之前,我整理了很多带显示 AI 眼镜的应用场景,如办公辅助、阅读等。但最终选择了烹饪,因为它是一个非常适合 Rokid 眼镜+智能体搭建平台的场景,具有以下几个特点:

  • 高频且高痛点:几乎每个人都需要做饭,而新手做饭往往会遇到很多麻烦,比如看菜谱不方便、疑问无法即时解答等。
  • 环境特殊性:厨房环境中,用户的双手往往被占用,无法操作手机;或者满手是油,容易弄脏手机。
  • 带显示的 AI 眼镜的优势:AI 眼镜的显示功能可以实时展示菜谱步骤,避免用户频繁操作手机屏幕;同时,厨房噪音大,语音输入 + 文字显示输出,比纯语音交互更适合。
  • Rokid-灵珠智能体平台轻量易用:无需基于SDK进行代码开发,是流行的智能体搭建开发模式,对我个人来说,可以作为作为新技能,锻炼个人能力。

技术选型:为什么选择单 Agent 模式?

在技术选型上,我选择了单 Agent 代理者模式而非更专业的工作流/对话流模式。这是因为烹饪是一个高度开放的场景,并非一个有清晰 SOP 的场景。用户可能随时提出各种问题,而工作流模式无法很好地处理这种非标准化请求。当然,也有我个人对智能体能力的了解不充分带来的局限。我个人认知中,在几周的比赛项目中做精细化的工作流设计,不一定能够带来表现的提升。以下是具体的辩证过程:

单 Agent 模式的优势

  • 灵活性:单 Agent 可以根据上下文动态调整响应策略,处理用户的各种突发问题。比如,当用户突然插入提问“这个步骤可以用料酒代替黄酒吗?”时,单 Agent 可以给出合理的建议,而工作流模式可能需要小心设计这种随时可能出现的分支情况。
  • 上下文记忆:单 Agent 可以保持对话上下文,记住用户之前的选择和烹饪进度,避免工作流模式中常见的“流程重置”问题。比如,当用户在烹饪过程中主动打断并暂停一段时间后,单 Agent 可以继续之前的进度。
  • 扩展性:单 Agent 可以通过添加新的技能模块快速扩展功能,而无需重新设计整个工作流。比如,我可以通过添加食材搭配建议、营养分析等技能模块,为用户提供更全面的烹饪辅助。

提示词的迭代过程

为了让单 Agent 模式能够更好地处理烹饪场景的开放性,我对提示词进行了多次迭代。初始版本的提示词过于简单,无法处理复杂场景。通过实际使用,我发现了很多问题,并逐步增加了细节限制。

最终版本的提示词包含 8 个技能模块,覆盖从选菜到完成的全流程:

  1. 拍照识别食材:通过拍照识别食材,推荐相关菜谱。
  2. 菜谱推荐:根据用户输入的食材,推荐相关的菜谱。
  3. 烹饪流程:提供整体烹饪流程,指导用户完成烹饪。
  4. 实时辅助:在烹饪过程中,按用户反馈指导下一步。
  5. 问题解答:解答用户的额外提问,回到烹饪流程。
  6. 时间规划:在费时操作时,提醒用户做别的菜。
  7. 记录添加:用户完成烹饪后,自动添加菜品到数据库。
  8. 手动添加:用户主动提出,添加做饭记录到数据库。

这些技能模块的设计,既保证了单 Agent 模式的灵活性,又通过细节限制确保了对话的连贯性和围绕烹饪主题进行。

开发过程:边实践边优化

初版的提示词其实是拍脑袋就定下来的,在实际的操作中修改了很多轮。

  • 快速搭建基础框架(一下午时间):完成核心功能模块的设计和配置,包括提示词的编写和技能模块的绑定。
  • 实际使用与优化(一个星期):每天做饭时都用它来辅助,遇到问题就记录下来,晚上再进行优化。

通过这种边用边改的方式,我解决了很多细节问题,比如:

  • 如何让提示更简洁,避免遮挡整块屏幕。
  • 如何处理用户的突发问题,保持对话连贯。
  • 如何优化时间规划,帮助用户合理安排多菜品烹饪顺序。
  • 如何处理复杂场景,比如多菜品同时烹饪、食材替代等。

项目特色:针对眼镜形态的优化

这个智能体的核心创新点在于选择了最能体现 Rokid 眼镜特色能力的场景,在仅使用灵珠平台的限制下,对眼镜形态进行了专门优化:

  • 简洁提示:所有提示都经过精简,确保在小屏幕上清晰可见。比如,菜谱步骤只显示当前需要执行的操作,避免过多信息遮挡视线。
  • 进度跟踪:自动记录烹饪进度,避免用户重复操作。比如,当用户完成一个步骤后,智能体自动推送下一步操作,无需用户手动触发。
  • 个性化推荐:基于历史烹饪记录推荐菜品,避免重复。比如,当用户连续两天做了同一个菜时,智能体可以提醒用户换个口味。

不足与未来展望

当然,这个项目还有很多不足:

  • 定时器功能:还需要等待平台能力更新,目前无法实现精确的时间控制。
  • 复杂场景处理:一些复杂场景的处理还不够完善,比如多菜品同时烹饪的时间规划、食材替代的合理性判断等。
  • 菜品库丰富度:菜品库还需要进一步丰富,覆盖更多的家常菜和特色菜。
  • 菜品风味的个人画像记录:在线下路演过程中,有参观者表示,每个地域的口味有明显不同,应当接入或者记录眼镜用户的个人画像,成为更加主动理解用户生活细节的助手。避免每次主动微调菜品口味。

但我觉得这正是开发者社区的魅力所在——我们可以一起不断优化,让项目变得更好。比赛结束后,我已经购入了自己的Rokid Glasses,我自己也会继续使用这个智能体,迭代它的功能,让它变得更实用。

给开发者的建议

选择比努力更重要,作为个人开发者,能付出的时间精力是有限的,这种时候对加深场景的理解比消耗在连线工作流里的时间更有价值。

在开发过程中,我有以下几点建议:

  • 深入理解场景:在开发之前,要深入理解目标场景的特点和用户的痛点,这样才能做出真正有价值的产品。
  • 选择合适的技术:根据场景的特点选择合适的技术架构,不要盲目跟风。比如,在开放场景中,单 Agent 模式可能比工作流模式更适合。
  • 边用边改:在开发过程中,要不断实际使用产品,发现问题并及时优化。这样可以快速迭代产品,提高产品的质量。

希望我的分享能给大家带来一些启发,也期待看到更多优秀的项目在 Rokid 开发者社区诞生。

目录
相关文章
|
1天前
|
JavaScript Linux API
OpenClaw保姆级图文指南:MacOS本地安装/阿里云部署+百炼API配置+必备Skill及避坑手册
OpenClaw作为一款开源AI智能体,凭借多平台兼容、技能模块化扩展、本地运行保障隐私等核心特性,成为个人与轻量团队的高效助手。它支持自然语言驱动的任务执行,可通过技能(Skills)扩展功能边界,适配办公协作、代码开发、日常管理等多场景需求。参考文章聚焦macOS平台安装与技能配置,本文在此基础上补充2026年最新适配细节、阿里云云端部署方案、阿里云百炼API配置流程及全场景避坑指南,全程无营销词汇,所有代码命令可直接复制执行,确保零基础用户无论选择本地部署(隐私优先)还是阿里云部署(稳定长效),都能快速上手并发挥其核心价值。
800 7
|
1天前
|
API 开发工具 git
OpenClaw从入门到装 Skill:阿里云/本地部署/API配置+Windows Skill安装指南+精选Skill清单及避坑指南
OpenClaw的核心能力源于Skill(技能插件)生态——通过安装不同功能的Skill,可将基础AI助手拓展为文档处理、浏览器自动化、视频生成、图像创作等多面手。对Windows用户而言,Skill安装是解锁OpenClaw完整能力的关键,但多数新手因不熟悉安装方法、路径配置或依赖处理,常陷入“安装失败”“Skill无法识别”等困境。
246 5
|
1天前
|
人工智能 搜索推荐 API
OpenClaw(Clawdbot)保姆级图文教程(阿里云/本地部署+API配置+集成4大搜索引擎Skill+避坑指南)
OpenClaw的核心价值之一,在于通过模块化的Skill(技能插件)拓展信息检索能力——ClawHub平台汇聚的5700+技能中,搜索类Skill以“打破信息茧房、高效整合资源”成为新手必备。其中,Find Skills、Multi Search Engine、Tavily Search、EvoMap四大核心搜索技能,覆盖“技能发现、多引擎检索、AI优化搜索、协作共享”全场景,无需复杂配置即可实现全网信息精准抓取,让OpenClaw从“对话AI”升级为“信息检索专家”。
179 0
|
1天前
|
人工智能 弹性计算 API
阿里云杀疯了!7.9 元解锁 8 款顶尖 AI 编程模型,OpenClaw 终于实现算力自由
OpenClaw用户苦Token贵久矣!阿里云百炼上线Coding Plan订阅服务,整合Qwen3.5、GLM-5、Kimi2.5等8款顶级编程模型,按次计费大幅降本,告别天价账单,5分钟极速对接,真正实现AI编程自由。
|
1天前
|
Linux API iOS开发
OpenClaw(Clawdbot)保姆级教程:阿里云/Windows 11/Linux/macOS部署+百炼API配置及避坑手册
OpenClaw作为一款本地优先、强执行能力的开源AI智能体(Agent),核心价值在于“真正能做事”——通过自然语言指令自动拆解任务、调用工具,在设备上完成实际操作(如文件处理、工具调用、多平台联动),而非仅提供对话回答。目前多数教程聚焦Mac与Linux系统,针对Windows平台的详细指南相对匮乏,且新手在部署过程中常面临权限不足、端口占用、API配置失败等问题。
972 2
|
1天前
|
JavaScript API 网络安全
阿里云 x OpenClaw(Clawdbot) 保姆级部署配置教程(全网最简单)附百炼API配置及避坑指南
OpenClaw(原Clawdbot)作为开源AI自动化代理工具,凭借自然语言任务拆解、多工具集成调用、7×24小时不间断运行的特性,成为个人办公自动化与轻量团队协作的优选工具。其核心优势在于无需复杂编程基础,仅通过简单配置与指令,即可实现系统文件读写、终端命令执行、浏览器自动化、邮件/日程管理等多样化任务,大幅提升工作效率。
291 0
|
1天前
|
人工智能 监控 机器人
阿里云OpenClaw部署指南,三步拥有专属AI助理!
阿里云OpenClaw一键部署方案,通过预配置镜像与可视化操作,大幅降低了AI助理的部署门槛。无论是个人用户用于日常事务处理,还是企业团队用于轻量协作,均可通过三步极简操作快速拥有一个7×24小时在线、多端可用的超级AI助理。
74 7
|
1天前
|
数据可视化
基于稀疏低秩分解的图像去噪MATLAB实现
基于稀疏低秩分解的图像去噪MATLAB实现
29 4
|
1天前
|
人工智能 弹性计算 自然语言处理
OpenClaw 新手教程:功能介绍与部署步骤
OpenClaw是一款开源AI自动化代理引擎,内置大模型“大脑”与3000+技能插件,支持自然语言指令完成网页操作、邮件处理、智能家居控制等任务。零代码部署,兼容多平台与主流大模型(含百炼、Qwen等),具备持久化记忆与自我进化能力。
58 1
|
1天前
|
人工智能 安全 API
OpenClaw(Clawdbot)保姆级图文攻略:阿里云/本地部署+11个必装Skill清单+百炼API配置及避坑,效率翻倍
OpenClaw的真正价值,藏在其开放的Skill生态中——没有Skill的OpenClaw,只是一个连接聊天工具与AI的网关;而搭载了合适Skill的OpenClaw,能变身开发者助手、信息管理专家、办公自动化引擎甚至生活管家,成为真正“离不开的个人AI团队”。
142 1

热门文章

最新文章