本文介绍一个我近期做的一个实践流程，快速搭建了一个小平台，基于这个平台可以做全自动化的评测，乃至于整个系统的全自动化优化，包括三个案例：

1. 基础的全自动化无UI评测；

2. 带UI的自动化评测，甚至评测UI里面的内容质量；

3. 整个系统的自动评测+优化，来回往复进行三轮，优化一晚上。

一、准备一个评测平台

说起评测平台，大家想到的，都是先定义好要做什么评测任务，然后去收集一些评测集，用评测集进行任务的回放和评测指标的观测，最后拿到评测结果，这个是一个很自然的评测流程。

但很快遇到一个痛点：人去做评测集的收集很苦很累，评测的进行也很烧时间，评测同学的意愿也并不是很强。

现在AI时代，自然就会想着AI First，能否定义好评测任务，让AI自主的去生成评测集，并且自主的模拟用户去运行这些评测，最终生成评测报告，乃至于最终能够基于评测报告优化系统，并且继续持续往复的进行过程。

这种AI First的理念，落到平台上，其实尽量就是只允许AI操作，人是无法操作的，从入口层面杜绝了人去干苦力活，如下图所示，玩法其实很简单，平台分不同的工作空间，然后复制这个技能说明，到自己的AI Agent里去（（本地的cc、codex、qoderwork、悟空等等都可以），就可以发布评测任务、让AI认领评测任务去生成评测集、基于评测集评测、提交评测报告等等工作。

这个评测平台有这些能力，都让AI来自动化操作：

1.创建评测任务，评测任务要求写明白评测目标、验收标准；

2.创建评测集，一个评测任务绑定若干个评测集，评测集要求有明确的评测步骤和预期结果；

3.创建评测报告，一个评测任务可以有多个评测报告，评测报告就是基于评测集的报告，最终会有一个打分。

具体我们来看多个案例，如何让AI生成任务和评测集，并且自己进行评测（包括UI评测），提交评测报告，最后还能基于评测报告优化系统，来回往复进行全自动优化。

二、长时间的系统自动优化

这里更新一个新的case，没看过原文的同学可以先从下面的基础case看起。

对于评测集，我们设定了两种，分别是标准（有明确的成功还是失败的状态），以及rubrics，也就是对于一些内容质量评测的时候，无法直接是成功还是失败，比如评测生成出来的一个图片好坏，这种时候利用rubrics生成一系列的不同等级的评测用例。

例如对一个查询OKR的场景，只是查没查出来是欠点意思的，但是可以生成出一系列的不同等级的评测用例：

在AI连接评测平台去生成评测集的说明里也有体现：

然后对于一个系统，在做一个AI优化功能的时候，不仅仅考虑AI功能本身做出来的质量如何，也需要考虑比如系统的顺滑衔接、UI的品味和质量高低，所以AI在反复迭代验证的时候，会生成多套评测集，来回反复的去验证：

对这些继续的AI自动自己进行评测优化和迭代，效果还是非常的好的，持续的优化评测集，优化，然后继续下一个版本的迭代，分数是稳步上升的：

三、一个基础的自动化测评案例

我们来举一个例子，比如钉钉文档有MCP，我现在想全方位的测评一下这个钉钉文档，所以我打开QoderWork，复制评测平台上的链接，输入这么一段话：

阅读https://ai-test.alibaba.net/skill-setup.md?api_key=***-***-***，当前空间的apikey=***-***-***
目前我们要来测试钉钉文档的mcp，了解钉钉文档mcp能做哪些事情，然后发布一个评测任务，生成至少10个评测集，并且进行评测提交评测报告

如图所示：

经过一段时间后，我们能看到跑完了，创建了一个任务，并且设计了13个测试用例，覆盖了钉钉文档MCP的主要功能，并且对每个功能都进行了测试，最终提交了评测报告，总分95分，说明功能是没有什么大问题的。

具体我们进入评测平台看看，可以看到有一条“钉钉文档MCP工具全功能评测”的任务：

对应的，在评测集里，也有了13条评测用例：

我们可以具体的看里面的评测用例都是什么，一共13个用例，都写的还不错，而且还有衔接，要知道我发布任务的时候也没怎么说：

可以看到评测用例还是比较有连贯性的，进一步，我们看看这些case评测的效果怎么样，我们看评测报告，目前只有一份评测报告，评分是95分：

具体看看报告里的内容，完整的评测报告比较长，大概3-4千字，我们截一部分：

扣5分的点在于：“TC10 创建文件夹时名称被自动追加序号"(1)"，说明可能存在同名检测机制，但接口未返回冲突提示，用户可能不易感知。”，最终结果：“钉钉文档MCP整体功能完备、接口响应正常、数据一致性良好，是一个成熟可用的文档操作MCP工具集。”

可以看到对于这种工作，AI确实可以来干活了，这个case也可以推广到，比如你有一个skill的文件夹包，你可以基于这个skill包，去生成几百个评测skill的用例，然后判断触发没触发，效果怎么样，最后基于评测结果自动化优化skill包。

四、一个不仅仅是UI测试的案例

刚刚采用QoderWork实践的是一个不需要界面UI的评测，理论上全部都可以在终端里搞定，复杂度是没那么高的，但现在的Cowork产品都号称能连接浏览器，进行浏览器的自动化操作，那么实际上，我们这套模式也可以推广到UI测试方面。

并且甚至不仅仅是UI测试，因为是AI Agent，可以顺带评测UI里的内容的相关质量，比如网站的内容是AIGC，是可以一起进行评测的。

现在我们开始，我有一个工具平台，叫做绘报，可以这个绘报可以输入一些文本或者导入一个钉钉文档，生成各种风格好看的精美的汇报文稿：

那么我现在期望能自动化测评最近生成的5个项目，并且5个项目是否功能正常，生成出来的质量是否正常，然后我继续打开QoderWork，输入测评平台的链接，并且简单描述下我想做这个事情。

稍微等待一会，我们可以看到QoderWork连接了我的浏览器，共享了登录态，并且打开了绘报的系统，开始进行分析：

再稍等一会，就看到评测平台上，多了一个评测任务：

并且评测任务，关联了5个刚生成的评测集：

接下来回到QoderWork，看看任务进度，可以看到第一个PPT已经评测完了，正在评测第二个PPT：

那我们就继续等一等，直到所有的PPT都测评完成，差不多跑了20分钟，全部跑完了：

进入我们的平台，我们可以看到有5个评测集：

然后我们点进评测报告，整体85分，每一个PPT都有评测结果，包括功能+质量的评测：

五、一个系统自动优化的案例

上面两个Case，介绍的其实都是人去发布一个评测任务，但是评测报告，还是得人去看，我想的就是，这么长的评测报告，我也不太想看，就想知道怎么直接系统优化，那正常来说，让cc、cursor、codex这些能写代码的，去读这个评测报告，不就可以进行优化了，更进一步，还可以来回往复的，自动去优化系统。

说干就干，首先，我有一个业务系统（因为有一些业务逻辑，所以都打个码），里面有几个AI能力，然后打开cursor，输入我的评测平台的链接，告诉他我要对这两个功能进行自动优化，你需要发任务、做评测集、评测、评测完了自动进行优化，优化完了再来一轮，这个过程至少进行三轮。

然后开始跑了，可以看到一轮评测的时间很长，大概需要1小时，因为这两个功能是带AI的，进行测试的时候需要先等平台系统的AI跑完，这里相当于cursor先等待这些评测集在系统上跑完，然后进行评测：

接下来人直接去睡觉，让系统跑着吧，因为时间大概要跑三四个小时。

睡了一觉，早上起来，打开评测平台，可以看到我有三个归档的任务了，分别标识是v1、v2、v3，并且v1的分数是90.7分，v2是97.4分，v3是99.1分，评测的分数也在稳步的提升！

可以在 cursor 里看到最终的一个对比说明和优化说明，对五个维度，进行了评测和优化，最终的第三个版本在5个维度上都比较清晰：

平台上的评测报告也非常的清晰，因为我的两个功能是AI功能，所以每一个用例，大概需要等1分钟AI输出，然后cursor是真的等所有的平台真实的用例跑完了之后，再针对多个维度进行评测，对每个用例的每个维度都有列表和说明，最后才给的评分，是比较认真的。

六、总结

这几个案例跑下来，还是有一些aha的，一方面确实是全自动化，人在里面干的事，就是花三四分钟描述下任务启动评测，剩下的就是看一看，非常的省力，但是要做到这个程度，还是有一些先决条件：

1.系统本身的UI规范和基础设施要达标：比如UI测试，经常出现不规范的情况，导致AI在UI里迷路了，这种情况就没法很好的自动化测试，但是也给了个警醒，AI都迷路了，更何况用户呢，所以这种基础的优化没达标，AI也没法测，另外就是QoderWork可以用插件来链接浏览器，不需要额外的登录，点个赞。

2.系统自动化优化，前提是系统本身AI Coding含量很高，因为一个人手工做的系统，约定大于配置的内容太多，AI也很难进行功能的跑通和优化，经常在一个地方就断掉了，这个实践跑的比较好的案例都是在AI Coding含量很高的系统，本身AI可以快速的启动本地的服务去做验证和测试，很多老系统其实日常环境也没有，到处都是断头路，这样也是做不好的。

来源 | 阿里云开发者公众号

作者 | 风聆

Harness Engineering实践，做了一个平台让AI一晚上自动评测和优化你的系统

一、准备一个评测平台

二、长时间的系统自动优化

三、一个基础的自动化测评案例

四、一个不仅仅是UI测试的案例

五、一个系统自动优化的案例

六、总结

热门文章

最新文章

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

Harness Engineering实践，做了一个平台让AI一晚上自动评测和优化你的系统

一、准备一个评测平台

二、长时间的系统自动优化

三、一个基础的自动化测评案例

四、一个不仅仅是UI测试的案例

五、一个系统自动优化的案例

六、总结

热门文章

最新文章

相关电子书