Rokid AI 赛道铜奖 [奖金10000元]:烹饪实时辅助智能体开发总结分享

简介: 本项目基于Rokid眼镜与灵珠智能体平台,打造专为厨房场景优化的AI烹饪助手。聚焦高频痛点,采用单Agent架构实现灵活交互、上下文记忆与技能扩展,集成拍照识材、实时指导、多菜统筹等8大功能,并针对小屏显示精简提示、优化进度跟踪,兼顾实用性与创新性。(239字)

在决定开发这个项目之前,我整理了很多带显示 AI 眼镜的应用场景,如办公辅助、阅读等。但最终选择了烹饪,因为它是一个非常适合 Rokid 眼镜+智能体搭建平台的场景,具有以下几个特点:

  • 高频且高痛点:几乎每个人都需要做饭,而新手做饭往往会遇到很多麻烦,比如看菜谱不方便、疑问无法即时解答等。
  • 环境特殊性:厨房环境中,用户的双手往往被占用,无法操作手机;或者满手是油,容易弄脏手机。
  • 带显示的 AI 眼镜的优势:AI 眼镜的显示功能可以实时展示菜谱步骤,避免用户频繁操作手机屏幕;同时,厨房噪音大,语音输入 + 文字显示输出,比纯语音交互更适合。
  • Rokid-灵珠智能体平台轻量易用:无需基于SDK进行代码开发,是流行的智能体搭建开发模式,对我个人来说,可以作为作为新技能,锻炼个人能力。

技术选型:为什么选择单 Agent 模式?

在技术选型上,我选择了单 Agent 代理者模式而非更专业的工作流/对话流模式。这是因为烹饪是一个高度开放的场景,并非一个有清晰 SOP 的场景。用户可能随时提出各种问题,而工作流模式无法很好地处理这种非标准化请求。当然,也有我个人对智能体能力的了解不充分带来的局限。我个人认知中,在几周的比赛项目中做精细化的工作流设计,不一定能够带来表现的提升。以下是具体的辩证过程:

单 Agent 模式的优势

  • 灵活性:单 Agent 可以根据上下文动态调整响应策略,处理用户的各种突发问题。比如,当用户突然插入提问“这个步骤可以用料酒代替黄酒吗?”时,单 Agent 可以给出合理的建议,而工作流模式可能需要小心设计这种随时可能出现的分支情况。
  • 上下文记忆:单 Agent 可以保持对话上下文,记住用户之前的选择和烹饪进度,避免工作流模式中常见的“流程重置”问题。比如,当用户在烹饪过程中主动打断并暂停一段时间后,单 Agent 可以继续之前的进度。
  • 扩展性:单 Agent 可以通过添加新的技能模块快速扩展功能,而无需重新设计整个工作流。比如,我可以通过添加食材搭配建议、营养分析等技能模块,为用户提供更全面的烹饪辅助。

提示词的迭代过程

为了让单 Agent 模式能够更好地处理烹饪场景的开放性,我对提示词进行了多次迭代。初始版本的提示词过于简单,无法处理复杂场景。通过实际使用,我发现了很多问题,并逐步增加了细节限制。

最终版本的提示词包含 8 个技能模块,覆盖从选菜到完成的全流程:

  1. 拍照识别食材:通过拍照识别食材,推荐相关菜谱。
  2. 菜谱推荐:根据用户输入的食材,推荐相关的菜谱。
  3. 烹饪流程:提供整体烹饪流程,指导用户完成烹饪。
  4. 实时辅助:在烹饪过程中,按用户反馈指导下一步。
  5. 问题解答:解答用户的额外提问,回到烹饪流程。
  6. 时间规划:在费时操作时,提醒用户做别的菜。
  7. 记录添加:用户完成烹饪后,自动添加菜品到数据库。
  8. 手动添加:用户主动提出,添加做饭记录到数据库。

这些技能模块的设计,既保证了单 Agent 模式的灵活性,又通过细节限制确保了对话的连贯性和围绕烹饪主题进行。

开发过程:边实践边优化

初版的提示词其实是拍脑袋就定下来的,在实际的操作中修改了很多轮。

  • 快速搭建基础框架(一下午时间):完成核心功能模块的设计和配置,包括提示词的编写和技能模块的绑定。
  • 实际使用与优化(一个星期):每天做饭时都用它来辅助,遇到问题就记录下来,晚上再进行优化。

通过这种边用边改的方式,我解决了很多细节问题,比如:

  • 如何让提示更简洁,避免遮挡整块屏幕。
  • 如何处理用户的突发问题,保持对话连贯。
  • 如何优化时间规划,帮助用户合理安排多菜品烹饪顺序。
  • 如何处理复杂场景,比如多菜品同时烹饪、食材替代等。

项目特色:针对眼镜形态的优化

这个智能体的核心创新点在于选择了最能体现 Rokid 眼镜特色能力的场景,在仅使用灵珠平台的限制下,对眼镜形态进行了专门优化:

  • 简洁提示:所有提示都经过精简,确保在小屏幕上清晰可见。比如,菜谱步骤只显示当前需要执行的操作,避免过多信息遮挡视线。
  • 进度跟踪:自动记录烹饪进度,避免用户重复操作。比如,当用户完成一个步骤后,智能体自动推送下一步操作,无需用户手动触发。
  • 个性化推荐:基于历史烹饪记录推荐菜品,避免重复。比如,当用户连续两天做了同一个菜时,智能体可以提醒用户换个口味。

不足与未来展望

当然,这个项目还有很多不足:

  • 定时器功能:还需要等待平台能力更新,目前无法实现精确的时间控制。
  • 复杂场景处理:一些复杂场景的处理还不够完善,比如多菜品同时烹饪的时间规划、食材替代的合理性判断等。
  • 菜品库丰富度:菜品库还需要进一步丰富,覆盖更多的家常菜和特色菜。
  • 菜品风味的个人画像记录:在线下路演过程中,有参观者表示,每个地域的口味有明显不同,应当接入或者记录眼镜用户的个人画像,成为更加主动理解用户生活细节的助手。避免每次主动微调菜品口味。

但我觉得这正是开发者社区的魅力所在——我们可以一起不断优化,让项目变得更好。比赛结束后,我已经购入了自己的Rokid Glasses,我自己也会继续使用这个智能体,迭代它的功能,让它变得更实用。

给开发者的建议

选择比努力更重要,作为个人开发者,能付出的时间精力是有限的,这种时候对加深场景的理解比消耗在连线工作流里的时间更有价值。

在开发过程中,我有以下几点建议:

  • 深入理解场景:在开发之前,要深入理解目标场景的特点和用户的痛点,这样才能做出真正有价值的产品。
  • 选择合适的技术:根据场景的特点选择合适的技术架构,不要盲目跟风。比如,在开放场景中,单 Agent 模式可能比工作流模式更适合。
  • 边用边改:在开发过程中,要不断实际使用产品,发现问题并及时优化。这样可以快速迭代产品,提高产品的质量。

希望我的分享能给大家带来一些启发,也期待看到更多优秀的项目在 Rokid 开发者社区诞生。

目录
相关文章
|
4月前
|
JSON 安全 开发工具
【Rokid】用Rokid AR眼镜做菜:解放双手的厨房助手开发实战
本文介绍如何使用Rokid CXR-M SDK的自定义页面功能,开发一款厨房菜谱助手。通过JSON构建界面布局,结合数据类与Gson序列化,实现步骤显示、计时提醒与火候图标等交互功能,解决做菜时手脏不便操作手机的问题。项目涵盖界面设计、图片处理、语音控制与性能优化,为AR眼镜在生活场景中的应用提供实战参考。(239字)
265 1
【Rokid】用Rokid AR眼镜做菜:解放双手的厨房助手开发实战
|
2月前
|
vr&ar 开发工具 C#
基于Rokid使用Unity开发3D轮盘抽奖游戏:虚实交互实战全解析
本文详解如何基于Rokid AR Lite与UXR3.0 SDK,在Unity中开发轻量、沉浸式3D轮盘抽奖AR游戏:涵盖环境搭建、3D场景构建、多模态交互(射线/触控)、旋转物理逻辑、中奖判定及性能优化,助力开发者快速落地虚实融合趣味应用。(239字)
|
1月前
|
人工智能 弹性计算 自然语言处理
只需3步!阿里云一键部署OpenClaw,轻松拥有专属AI助理!
OpenClaw怎么部署?阿里云推出了OpenClaw一键部署方案,只需三步,即可轻松拥有专属AI助理!
350 6
|
1月前
|
人工智能 安全 Linux
告别空壳AI!OpenClaw阿里云/本地部署+百炼API配置+5500+Skill一键安装,覆盖30+场景
OpenClaw(前身为Clawdbot/Moltbot)的爆火,让本地AI Agent从概念走向实用——它打破云端束缚,将大模型部署在个人设备,兼顾隐私与可控性。但裸奔的OpenClaw只是“会思考的空壳”:想让它写爬虫需手动教装库,想让它搭博客要一步步调环境,如同雇了个“小白助手”。真正让其落地干活的,是Skill(技能插件)生态。
1010 5
|
1月前
|
SQL 人工智能 安全
我们用 AI Observe Stack 观测了 OpenClaw,发现 AI Agent 背后的这些隐患
本文基于 AI Observe Stack 构建的 OpenClaw 可观测系统是使用 AI 在一天内完成的。用户也可以用阿里云 SelectDB 云服务或者开源 Apache Doris 在几分钟内快速搭建起来亲身体验
989 4
我们用 AI Observe Stack 观测了 OpenClaw,发现 AI Agent 背后的这些隐患
|
1月前
|
人工智能 弹性计算 自然语言处理
OpenClaw 新手教程:功能介绍与部署步骤
OpenClaw是一款开源AI自动化代理引擎,内置大模型“大脑”与3000+技能插件,支持自然语言指令完成网页操作、邮件处理、智能家居控制等任务。零代码部署,兼容多平台与主流大模型(含百炼、Qwen等),具备持久化记忆与自我进化能力。
454 1
|
1月前
|
SQL 运维 NoSQL
告别救火式运维!DAS Agent 助力企业迈入AI-Native数据库运维时代
阿里云瑶池DAS Agent是融合大模型与十万工单经验的智能数据库运维大脑,实现“发现-诊断-优化”全链路自治。支持云上/自建多引擎实例,秒级定位CPU飙升、死锁等根因,对话框内直接限流、SQL优化、死锁分析,7×24小时主动预防,助力企业迈入AI-Native运维时代。
170 1
|
1月前
|
人工智能 JavaScript 编译器
AI工具的“超级外挂”:从零手把手教你搭建私人 MCP 服务器
本文手把手教你用Node.js从零搭建私人MCP(模型上下文协议)服务器,解决AI无法直接访问本地文件、数据库等痛点。含环境配置、TypeScript编译避坑、Hello World工具开发及Inspector调试全流程,助你赋予AI真实行动力!
601 0
AI工具的“超级外挂”:从零手把手教你搭建私人 MCP 服务器
|
1月前
|
人工智能 安全 数据可视化
OpenClaw(Clawdbot)阿里云/本地部署+百炼API配置+6个核心Skill+避坑指南,搭建“全能AI助手”
OpenClaw(原Clawdbot,俗称“小龙虾”)作为开源AI Agent框架,其本身仅提供基础交互骨架,真正决定其能力边界的是Skill生态。许多用户在使用中会遇到共性困惑:为何同样的OpenClaw,别人的能一句话跑通复杂任务,自己的却需要反复调试仍难达预期?核心差距在于Skill的选择与组合——优质Skill能让OpenClaw在信息获取、内容处理、自动化执行、自我进化四个维度实现能力跃迁,从“基础工具”升级为“全能助手”。
669 2
|
1月前
|
人工智能 自然语言处理 Linux
OpenClaw(Clawdbot)新手完整学习路径:阿里云/本地部署+百炼API配置+集成/使用/开发Skill+避坑指南
对零基础用户而言,学习OpenClaw(原Clawdbot)的核心痛点并非“技术难度”,而是“路径混乱”——不清楚先学什么、再练什么,容易在部署环节卡壳,或因技能安装过多导致功能冲突。2026年最新版OpenClaw已完成核心架构升级,采用“微内核+网关+技能插件”的轻量化设计,同时优化了对阿里云的适配与本地部署流程,让新手可通过“认知建立→环境部署→API配置→技能实战→进阶优化”的五步路径,在1周内实现从“零基础”到“熟练使用”的跨越。
1403 1

热门文章

最新文章