[TOC]
使用测评
这是一张使用截图,像在做自我介绍一样。这就是今天我尝试使用的智能运维助手,OS Copilot。
身为运维,天天和系统和命令和脚本打交道,CO 是专门在这个场景中,借助大模型能力增加工作效率的工具。今天我按着他的指引文档,一步步试用操作了一下,整个过程用下来还算顺畅,总体来看 CO 确实有了智能助手的影子,但实际能力离真正帮忙,还有一些距离,我把优缺点记录了下来,测试步骤放在了最后,供有兴趣的人参考。测评问题总结放在最后。
惊艳之处
- 停止命令很优雅,做了样式
- 交互模式的对话做了对话记忆功能。
不足之处
- markdown 语法在终端中有些多次一举,阻碍阅读。
- 生成脚本后推荐了可执行命令,当我选择执行命令时,则报错没有文件,然后我才发现 CO 只生成了代码,而确实没有生成文件。所以接下来供用户执行的选择有点画蛇添足,因为既然没有文件也没办法执行,则不要这样提示为好。
- 仍有模型幻觉,以下面例子为例,我进一步让他保存代码文件,暂且不提 CO 是否具备了调用系统接口做创建文件的动作,但是他自己没有否认自己有这个能力,于是做了如下输出,可以看到,他认为自己已经完成了任务,保存了文件,但实际什么也没有,所以模型幻觉让人存在,很容易触发。
- 模型语料中对自身的知识有些不足,比如我问他交互模式中的 codesum 是怎么用的,但是 CO 并没有给出一个合格的答案
产品建议
- 如果能在终端中,代码生成时加上代码高亮的功能,那将非常炫酷
- 如果 CO 可以调用系统接口,创建文件,写入文件,读取文件,真正做到和系统相结合使用,那将是一个质的提升。
- 希望 CO 在执行任务时,也可以选择打印出自己的思维链,比如这一步骤做了什么,下一步骤做什么,这样当出现幻觉或者回答错误时,使用者也容易知道是哪一环节出了问题,导致模型错误输出。
- 如果 CO 可以提供接口,供其他工具调用,那将大大扩展自己的舞台。
- 希望 CO 训练数据不要太着重于简单常见命令,这些命令都是大家手到擒来的,真正让人头疼,不得不去搜索查阅资料的是一些疑难或者长命令,如果 CO 模型能加强这部分的训练,那一定很有帮助。
环境准备步骤
一键创建实例
修改服务器密码
设置安全组
创建AccessKey
安装 OS Copilot
测评问题
1、OS Copilot 产品体验评测
1)您的角色是什么?开发、运维、学生?如果使用OS Copilot,您的使用场景是什么?
运维,工作维护集群,检查集群,维护服务
2)你觉得 OS Copilot 在新人上手方面是否简单、指引文档是否清晰、是否存在什么阻碍?
清晰无阻碍
3)OS Copilot 是否对您的工作有帮助?如果有帮助的话,帮助程度1-10分,能够打几分?
7分,具体原因见文中不足之处的分析
4)您愿意向周边朋友/工作伙伴推荐OS Copilot吗?如果OS Copilot开源,是否有意愿共同参与开发?包括参与OS领域大模型的训练等。
愿意
2、OS Copilot 产品功能反馈
1)您体验了哪些功能?对OS Copilot的哪些功能最感兴趣(知识问答、辅助编程、辅助命令执行等),为什么?
代码生成,辅助命令执行都不错,具体使用情况上文使用测评
2)您有体验过其他类型的产品吗?对比其他产品OS Copilot有什么优缺点?
体验过 copilot,相较于纯代码辅助的 copilot,OS Copilot 更专注操作系统的运维,对系统命令解释的详细,尤其对中文内容很友好。缺点就是模型能力还不够强大,幻觉问题时常出现。详情见文中不足之处的分析。
3)您希望OS Copilot能够扩展其他哪些功能呢?比如,支持更多的操作系统、自动命令报错原因分析、系统错误排查,或其他任何您想到的功能。
对于功能建议已经在文中产品建议模块给出。再补充一些,比如我希望 CO 能多平台,能个性化,支持配置。
4)OS Copilot与其他产品联动组合的体验以及可能,如ACK智能助手、ECS、Workbench等,您也可以展开列举组合的实际应用场景。
与 p8s,alertmanager 等告警组件,组合成巡检告警系统。