Harness Engineering实践,做了一个平台让AI一晚上自动评测和优化你的系统

简介: 文章内容基于作者个人技术实践与独立思考,旨在分享经验,仅代表个人观点。

本文介绍一个我近期做的一个实践流程,快速搭建了一个小平台,基于这个平台可以做全自动化的评测,乃至于整个系统的全自动化优化,包括三个案例:

1. 基础的全自动化无UI评测;

2. 带UI的自动化评测,甚至评测UI里面的内容质量;

3. 整个系统的自动评测+优化,来回往复进行三轮,优化一晚上。


一、准备一个评测平台

说起评测平台,大家想到的,都是先定义好要做什么评测任务,然后去收集一些评测集,用评测集进行任务的回放和评测指标的观测,最后拿到评测结果,这个是一个很自然的评测流程。

但很快遇到一个痛点:人去做评测集的收集很苦很累,评测的进行也很烧时间,评测同学的意愿也并不是很强。

现在AI时代,自然就会想着AI First,能否定义好评测任务,让AI自主的去生成评测集,并且自主的模拟用户去运行这些评测,最终生成评测报告,乃至于最终能够基于评测报告优化系统,并且继续持续往复的进行过程。

这种AI First的理念,落到平台上,其实尽量就是只允许AI操作,人是无法操作的,从入口层面杜绝了人去干苦力活,如下图所示,玩法其实很简单,平台分不同的工作空间,然后复制这个技能说明,到自己的AI Agent里去((本地的cc、codex、qoderwork、悟空等等都可以),就可以发布评测任务、让AI认领评测任务去生成评测集、基于评测集评测、提交评测报告等等工作。

这个评测平台有这些能力,都让AI来自动化操作:

1.创建评测任务,评测任务要求写明白评测目标、验收标准;

2.创建评测集,一个评测任务绑定若干个评测集,评测集要求有明确的评测步骤和预期结果;

3.创建评测报告,一个评测任务可以有多个评测报告,评测报告就是基于评测集的报告,最终会有一个打分。

具体我们来看多个案例,如何让AI生成任务和评测集,并且自己进行评测(包括UI评测),提交评测报告,最后还能基于评测报告优化系统,来回往复进行全自动优化。


二、长时间的系统自动优化

这里更新一个新的case,没看过原文的同学可以先从下面的基础case看起。

对于评测集,我们设定了两种,分别是标准(有明确的成功还是失败的状态),以及rubrics,也就是对于一些内容质量评测的时候,无法直接是成功还是失败,比如评测生成出来的一个图片好坏,这种时候利用rubrics生成一系列的不同等级的评测用例。

例如对一个查询OKR的场景,只是查没查出来是欠点意思的,但是可以生成出一系列的不同等级的评测用例:

在AI连接评测平台去生成评测集的说明里也有体现:

然后对于一个系统,在做一个AI优化功能的时候,不仅仅考虑AI功能本身做出来的质量如何,也需要考虑比如系统的顺滑衔接、UI的品味和质量高低,所以AI在反复迭代验证的时候,会生成多套评测集,来回反复的去验证:

对这些继续的AI自动自己进行评测优化和迭代,效果还是非常的好的,持续的优化评测集,优化,然后继续下一个版本的迭代,分数是稳步上升的:


三、一个基础的自动化测评案例

我们来举一个例子,比如钉钉文档有MCP,我现在想全方位的测评一下这个钉钉文档,所以我打开QoderWork,复制评测平台上的链接,输入这么一段话:

阅读https://ai-test.alibaba.net/skill-setup.md?api_key=***-***-***,当前空间的apikey=***-***-***
目前我们要来测试钉钉文档的mcp,了解钉钉文档mcp能做哪些事情,然后发布一个评测任务,生成至少10个评测集,并且进行评测提交评测报告

如图所示:

经过一段时间后,我们能看到跑完了,创建了一个任务,并且设计了13个测试用例,覆盖了钉钉文档MCP的主要功能,并且对每个功能都进行了测试,最终提交了评测报告,总分95分,说明功能是没有什么大问题的。

具体我们进入评测平台看看,可以看到有一条“钉钉文档MCP工具全功能评测”的任务:

对应的,在评测集里,也有了13条评测用例:

我们可以具体的看里面的评测用例都是什么,一共13个用例,都写的还不错,而且还有衔接,要知道我发布任务的时候也没怎么说:

可以看到评测用例还是比较有连贯性的,进一步,我们看看这些case评测的效果怎么样,我们看评测报告,目前只有一份评测报告,评分是95分:

具体看看报告里的内容,完整的评测报告比较长,大概3-4千字,我们截一部分:

扣5分的点在于:“TC10 创建文件夹时名称被自动追加序号"(1)",说明可能存在同名检测机制,但接口未返回冲突提示,用户可能不易感知。”,最终结果:“钉钉文档MCP整体功能完备、接口响应正常、数据一致性良好,是一个成熟可用的文档操作MCP工具集。”

可以看到对于这种工作,AI确实可以来干活了,这个case也可以推广到,比如你有一个skill的文件夹包,你可以基于这个skill包,去生成几百个评测skill的用例,然后判断触发没触发,效果怎么样,最后基于评测结果自动化优化skill包。


四、一个不仅仅是UI测试的案例

刚刚采用QoderWork实践的是一个不需要界面UI的评测,理论上全部都可以在终端里搞定,复杂度是没那么高的,但现在的Cowork产品都号称能连接浏览器,进行浏览器的自动化操作,那么实际上,我们这套模式也可以推广到UI测试方面。

并且甚至不仅仅是UI测试,因为是AI Agent,可以顺带评测UI里的内容的相关质量,比如网站的内容是AIGC,是可以一起进行评测的。

现在我们开始,我有一个工具平台,叫做绘报,可以这个绘报可以输入一些文本或者导入一个钉钉文档,生成各种风格好看的精美的汇报文稿:

那么我现在期望能自动化测评最近生成的5个项目,并且5个项目是否功能正常,生成出来的质量是否正常,然后我继续打开QoderWork,输入测评平台的链接,并且简单描述下我想做这个事情。

稍微等待一会,我们可以看到QoderWork连接了我的浏览器,共享了登录态,并且打开了绘报的系统,开始进行分析:

再稍等一会,就看到评测平台上,多了一个评测任务:

并且评测任务,关联了5个刚生成的评测集:

接下来回到QoderWork,看看任务进度,可以看到第一个PPT已经评测完了,正在评测第二个PPT:

那我们就继续等一等,直到所有的PPT都测评完成,差不多跑了20分钟,全部跑完了:

进入我们的平台,我们可以看到有5个评测集:

然后我们点进评测报告,整体85分,每一个PPT都有评测结果,包括功能+质量的评测:

五、一个系统自动优化的案例

上面两个Case,介绍的其实都是人去发布一个评测任务,但是评测报告,还是得人去看,我想的就是,这么长的评测报告,我也不太想看,就想知道怎么直接系统优化,那正常来说,让cc、cursor、codex这些能写代码的,去读这个评测报告,不就可以进行优化了,更进一步,还可以来回往复的,自动去优化系统。

说干就干,首先,我有一个业务系统(因为有一些业务逻辑,所以都打个码),里面有几个AI能力,然后打开cursor,输入我的评测平台的链接,告诉他我要对这两个功能进行自动优化,你需要发任务、做评测集、评测、评测完了自动进行优化,优化完了再来一轮,这个过程至少进行三轮

然后开始跑了,可以看到一轮评测的时间很长,大概需要1小时,因为这两个功能是带AI的,进行测试的时候需要先等平台系统的AI跑完,这里相当于cursor先等待这些评测集在系统上跑完,然后进行评测:

接下来人直接去睡觉,让系统跑着吧,因为时间大概要跑三四个小时。

睡了一觉,早上起来,打开评测平台,可以看到我有三个归档的任务了,分别标识是v1、v2、v3,并且v1的分数是90.7分,v2是97.4分,v3是99.1分,评测的分数也在稳步的提升!

可以在 cursor 里看到最终的一个对比说明和优化说明,对五个维度,进行了评测和优化,最终的第三个版本在5个维度上都比较清晰:

平台上的评测报告也非常的清晰,因为我的两个功能是AI功能,所以每一个用例,大概需要等1分钟AI输出,然后cursor是真的等所有的平台真实的用例跑完了之后,再针对多个维度进行评测,对每个用例的每个维度都有列表和说明,最后才给的评分,是比较认真的。


六、总结

这几个案例跑下来,还是有一些aha的,一方面确实是全自动化,人在里面干的事,就是花三四分钟描述下任务启动评测,剩下的就是看一看,非常的省力,但是要做到这个程度,还是有一些先决条件:

1.系统本身的UI规范和基础设施要达标:比如UI测试,经常出现不规范的情况,导致AI在UI里迷路了,这种情况就没法很好的自动化测试,但是也给了个警醒,AI都迷路了,更何况用户呢,所以这种基础的优化没达标,AI也没法测,另外就是QoderWork可以用插件来链接浏览器,不需要额外的登录,点个赞。

2.系统自动化优化,前提是系统本身AI Coding含量很高,因为一个人手工做的系统,约定大于配置的内容太多,AI也很难进行功能的跑通和优化,经常在一个地方就断掉了,这个实践跑的比较好的案例都是在AI Coding含量很高的系统,本身AI可以快速的启动本地的服务去做验证和测试,很多老系统其实日常环境也没有,到处都是断头路,这样也是做不好的。



来源  |  阿里云开发者公众号

作者  |  风聆

相关文章
|
1天前
|
人工智能 前端开发 Shell
一个文件让 AI Coding 效率翻倍:AGENTS.md 实践指南
文章内容基于作者个人技术实践与独立思考,旨在分享经验,仅代表个人观点。
一个文件让 AI Coding 效率翻倍:AGENTS.md 实践指南
|
1天前
|
人工智能 前端开发 测试技术
Qoder Skills 完全指南:从零开始,让 AI 按你的标准执行
文章内容基于作者个人技术实践与独立思考,旨在分享经验,仅代表个人观点。
|
14天前
|
人工智能 程序员 测试技术
从玩具到生产力:用真实项目讲透 AI Agent 的 Harness Engineering
这篇文章不讲 Prompt 技巧,也不推销某个 Skill,只想说清两件事——在企业工程环境里,如何把大模型 Harness(约束与治理)成一个能持续参与交付的协作者;以及大模型时代,程序员为什么正在从“亲手写代码的人”迁移成“定义目标、控节奏、做验收的人”。(文章内容基于作者个人技术实践与独立思考,旨在分享经验,仅代表个人观点。)
从玩具到生产力:用真实项目讲透 AI Agent 的 Harness Engineering
|
6月前
|
机器学习/深度学习 人工智能 缓存
让AI评测AI:构建智能客服的自动化运营Agent体系
大模型推动客服智能化演进,从规则引擎到RAG,再到AI原生智能体。通过构建“评估-诊断-优化”闭环的运营Agent,实现对话效果自动化评测与持续优化,显著提升服务质量和效率。
2825 86
让AI评测AI:构建智能客服的自动化运营Agent体系
|
14天前
|
人工智能 JavaScript 前端开发
赛博鸡生蛋,7小时用Claude Vibe Coding一个Mini-Claude
文章内容基于作者个人技术实践与独立思考,旨在分享经验,仅代表个人观点。
|
14天前
|
人工智能 JSON 监控
Qoder CLI + Harness Engineering 实战:构建 7×24h 无人值守用户反馈自动处理系统
Qoder推出7×24小时无人值守用户反馈自动处理系统,基于Qoder CLI构建四大模块:智能分类、语义聚类、日志根因分析与自动修复。AI自动完成问题识别、归并、定位及代码生成,人工仅需终审Code Review,处理时效从30分钟缩短至2分钟。
Qoder CLI + Harness Engineering 实战:构建 7×24h 无人值守用户反馈自动处理系统
|
14天前
|
人工智能 安全 API
深度解析 Claude Code 在 Prompt / Context / Harness 的设计与实践
文章内容基于作者个人技术实践与独立思考,旨在分享经验,仅代表个人观点。
深度解析 Claude Code 在 Prompt / Context / Harness 的设计与实践
|
14天前
|
安全 关系型数据库 API
深入源码:Hermes Agent 如何实现 "Self-Improving"
Hermes Agent 是首个实现“自我进化”的AI智能体,上线半年GitHub星标破10万。它通过Memory(记人)、Skill(记事)、Nudge Engine(提醒学习)三大系统闭环,让Agent越用越懂你、越用越强——非手写配置,而是自动从实践中提炼可复用技能并持续优化。
深入源码:Hermes Agent 如何实现 "Self-Improving"
|
1天前
|
缓存 人工智能 安全
你不知道的 Agent:原理、架构与工程实践
文章内容基于作者个人技术实践与独立思考,旨在分享经验,仅代表个人观点。
|
1天前
|
人工智能 运维 供应链
Ontological Engineering:基于PolarDB-PG智能本体引擎实现“数据驱动”到“决策中心”
Ontology源自哲学“存在之学”,在AI中构建企业级语义层,实现对象、关系与动作的结构化建模。PolarDB-PG嵌入轻量级Ontology引擎,支持OAG(本体增强生成),解决LLM语义模糊、逻辑幻觉等落地难题,赋能供应链、运维、营销等高可靠智能决策场景。
Ontological Engineering:基于PolarDB-PG智能本体引擎实现“数据驱动”到“决策中心”