一、如何标注(以外部机器人4天标注为例)
1、下载源文件:进入数据看板----会话历史 选择机器人外部,数据来源C端,时间筛选你想标注的时间段,最后点击下载(若无法下载,按照这个步骤隐私设置和安全性-----网站设置----更多设置----不安全内容----允许修改浏览器相关配置即可)
2、处理源文件:
按照提问时间去重(因为导出的历史记录存在一个问题,就是针对回复类型为推荐类型的提问会根据推荐的知识条数进行拆分,会导致用户只提了一个问题,但是导出有三个相同的问题,例如下图数字3标红处,这样既会影响标注的效率,又会影响后续准确率的计算)
具体操作:选中提问时间这一列(效果如图数字1处),点击筛选里面的高级筛选(如图数字2处),筛选弹窗出来后勾选第二张图所示的选择不重复记录按钮,点击确定。这时就是去掉系统导致的重复后的数据,因为后续要进行标注等一系列操作,所以可以将筛选出来的数据复制到第二个sheet中进行处理。
3、标注准备工作:去掉无意义多余列,新增一列标注列,并且将该列(除第一行标题)插入下拉框,这样避免重复打字浪费时间,这样准备工作就做完了,可以开始标注了。
4、标注标准:
正确:命中知识,并且提问和答案是符合的
错误:(错误的大前提是知识库里面配置过该问题的答案。)一方面由于提问方式多样化而未命中知识,另一方面就是错误命中其他不相干知识。
业务未覆盖:就是知识库知识没有覆盖该提问。
语义不明:不明白在说什么,例如随便发一串数字,单独一个地名,抱怨,脏话,不相干提问等等,或者说话说半句导致无法明白客户要问什么。
举例如下:错误=》餐总交接表在知识库里面是配置过的,但是客户提问却没有直接命中,所以就是错误,对于错误知识,我们可以在标注的时候直接配置到相应知识的相似问里面去,这样也避免后续再去处理浪费时间。