高德技术评测建设之路

简介: 本文试图阐述评测这一新岗位在高德的主要职责,发展进化过程,以及这一岗位所负责的产品效果评估手段与体系搭建。

前言
近几十年是互联网高速发展的时代。随着互联网行业的发展壮大,必然会出现角色的细分,从而演化出了不同的职能岗位。随着日益激烈的市场竞争,修炼内功,提升产品效果也成为了各公司发展的重要工作。产品效果如何评估?用户体验如何度量?本文试图阐述评测这一新岗位在高德的主要职责,发展进化过程,以及这一岗位所负责的产品效果评估手段与体系搭建。

当你在各搜索引擎输入评测二字时,看到的相关搜索通常是这样的:

yanming1.png

yanming2.png

这些问题其实能代表大部分人对评测的了解——就是除了游戏评测、手机评测、汽车评测、生活用品评测之外,人们对评测其实不太了解。互联网公司里Title是评测的同学又是做什么的呢?也许大家的了解就更少了。

做了三年多的评测,在第一年经常面对的灵魂拷问就是:“你们评测是做什么的?”这种问题回答起来,基本类似于哲学的终极三问了:“你是谁?你从哪儿来?你到哪儿去?”

评测是谁?这是评测的定位问题。评测从哪儿来?这是评测的根基和起源。评测要到哪儿去?这是评测的发展目标和方向。

评测是谁?

简单地说,评测是评估产品效果的团队。希望能站在用户的角度,在上线前验证需求效果,在上线后通过对自身、用户数据和竞品的全面分析,建立起产品立体的效果评估体系,也就是评测体系。

评测从哪儿来?

要回答这个问题,其实就是——为什么要评测?

如同每个版本更新,我们都会关心性能如何一样,当上线了新的策略时,大家也会同样关心产品的效果。产品效果如何评估?策略相关的需求开发完成之后,研发实现的实际效果是否和产品经理的预期一致?实际效果又是否和用户的预期一致?在理想情况下,这三者应该是无差异的。但我们也应该有衡量它们之间是否有差异的方式,给出效果变化是否正向的结论,以更好地保障用户的使用体验。

此外,即使上线前,所有人都一致给出了正向结论,认为需求上线后一定会给用户体验带来极大提升。真实的产品体验如何,仍然得用户说了算。比较大的修改可以通过AB实验的方式圈出小部分用户,快速收集用户数据,进一步对需求效果是否正向做出评价。或者直接上线,通过对行为数据及用户反馈的分析来完成线上评估。

同时,要在市场上找准自己的位置,对竞品的分析必不可少。

有了这些效果评估及分析的需求,就有了评测团队。

yanming3.png

如何进行评测
上线前的离线效果评测及分析、AB实验及分析、上线后的指标监控及问题分析、问题挖掘,竞品监控和分析是常见的评测手段。

yanming4.png

一、离线评测

上线前,针对产品的需求,评测的职责是通过各种方式分析及验证产品效果,给出是否能达到上线标准的结论,同时分析出头部问题所在。

技术评测团队成立之初,主要建设的部分有:确定合作流程、建设评测专业能力和建设评测工具。

  • 合作流程

对标一个版本开发的项目流程,从需求确定到开发,到测试验证再到上线。评测从需求串讲阶段开始,明确有哪些需求涉及到效果变化。再根据变化情况制定评测方案,同时检查工具是否符合需要,如否则进入工具快速开发阶段。然后获取评测数据,进入评估验证阶段,最后发送报告,给出需求是否通过评测的结论,并对出现的问题进行总结分类。

yanming5.png

对于评测介入的不同业务线来说,评测的流程大致相同。但由于业务不同,评测方案与方式会有很大不同。

  • 评测方案

根据产品需求,明确效果修改影响范围,从而确定评测样本、评测方式和评测标准。

  • 评测样本

评测样本通常会根据需求影响范围的不同,区分为随机语料和特定语料。

特定语料一般针对需求修改的特定维度、类型进行抽取,目的是保证评测任务的覆盖率。随机语料则是为了反映需求的真实影响范围。当一个评测任务需要使用特定语料时。通常建议使用特定及随机语料各一份,以同时保证足够的覆盖,同时了解真实影响范围,确保不会出现不符合预期的变化。

除真实语料外,在特定场景下也会使用自己构建的语料。通常原因为:1)策略上线之前没有真实线上语料;2)影响的场景太小,在真实语料中很难找到足够的Case。

  • 评测标准

评测标准通常涉及到一个概念,即真值。当某类数据在现实世界中有唯一正确答案时,即有绝对真值存在,如数据信息。因此我们对这类数据的评价标准就是是否跟真值一致。

另一类是相对真值。来源可以是用户日志。例如,当我们在判断提供给用户的预计到达时间(ETA)是否正确时,可以用用户在起终点之间的真实行驶时间作为真值和我们的预估时间进行对比。但由于单一用户的实际行驶时间受个人行驶习惯以及单次的行驶情况所影响,并不是完全准确的。因此是相对真值。在搜索等业务线,用户的点击行为,也可以成为相对真值,从而成为效果评测的标准。

是否有真值,真值是否容易获取,能否大批量自动化的获取,是在确认评测标准时需要做的判断。

  • 评测方式

对应不同的评测目的,我们给出不同的离线评测方式。有真值的业务,通过真值的自动获取或者标注,可以实现自动化评测。而无真值的业务线,判断效果好坏的成本较高,通常需要进行人工评测或者半自动化评测。

yanming6.png

人工评测,顾名思义,就是靠人力打分。各搜索公司大概是最早对自己的产品进行效果评估的,谷歌、微软、百度、苹果等,都采用了类似的方式对质量进行评价。

Google曾经发布过长达164页的人工质量评估指南。百度和必应也发布过类似的文档。

苹果在介绍自己的评测体系时,也曾经专门解释过Human Judgement metrics, why we track them?

  • 可以在上线前发现版本问题。
  • 人工评测的指标与定量指标紧密关联。
  • 可以定义一个版本的整体质量,并可持续跟进效果变更。
  • 比用户反馈更详细,更容易定位问题。

人工评测缺点不用多说,成本高、覆盖面小、效率偏低。因为它的优点,目前仍然是各公司评测体系不可缺少的一部分。与别的评测手段结合使用时,能起到很好的效果。

要保证人工评测的质量和效率,有三个关键点,一是标准,二是流程,三是工具。

标准文档,类似于操作手册,目的是降低人员培训成本,并在一些较难判断的Case上,尽量减少大家认知上的差异。所以标准文档应该越傻瓜越好。定义明确、所有的特殊和例外场景都有示例、在实践中反复检验,并且保持更新频率。文档更新应该有专人负责,并且明确更新周期,同时将更新点同步到所有评估人员。

人工操作错误在所难免,没人能达到百分百的准确。同时需要人工评测的评测对象,通常本身没有客观统一的确定答案,因此大家难免在判断上有差异。这些问题都需要从流程上加以保障。如同一Case必须多人标注,仅保留一致率较高的Case,否则便丢弃。或者采用初审复审制,经验较少的人员进行初审,高级人员进行复审。

盲审,这种方式通常在对比时使用,去掉新旧版或者左右版的标识,并且让结果随机出现,从而保证评测人员的客观性,不受主观因素影响。

人工评测中的人,通常也有两种身份。一种是普通用户,一种是专家。专家评测需要站在更专业的视角,结合自己对业务的理解和经验才能得出结论。另一种则是普通用户也能站在自己的视角给出效果好坏。后一种可以进行众测,达到较大范围的收取用户体验与反馈,同时获得一些真实数据支持迭代优化的效果。地图导航由于其专业性,通常需要进行专家评测。

  • 评测工具

评测工具是评测效率和质量的保证。核心功能包括,数据仓库、任务管理、任务的抓取和解析,diff统计和筛选,任务实例的展示、评测、流转,抽样、分配,结果管理、自动化报告。

yanming7.png

通用流程之外的任务类型、打分方式、 Case形态都可以自己定义。由于大部分是对比类的评测任务,如何做diff也非常关键,尽量把业务关注的各个重点都进行diff差分。以便快速了解迭代效果影响面,以及快速定位问题。专家型评测在分析和定位问题时,还需要辅助分析或者判断的数据及工具。工具的接入常常能极大地提高评测效率。

人工评测能够良好运行,有了一定的评测经验积累和业务了解之后,开始进行半自动化和自动化的评测建设。

方式包括定义指标波动阈值和极端Case的冒烟评测,及模拟人工评测的自动打分模型。

自动打分模型通过学习人工评测的特征,自动给出GSB的评分,统计评分结果,对评测任务的效果进行初步判定。目前可以成为辅助判断的参考手段。

yanming8.png


冒烟评测先定义出业务核心关注的场景和维度,设定指标。并根据既往评测经验计算出可接受的波动阈值。另外定义出在效果变化上不可接受的恶劣Case。对于部分需要快速验证上线的实验,可以实现缩短评测周期,并保证无异常的效果。在部分业务线借此实现了自动发布上线的过程。

指标分析+异常检验的评测方式,是目前无真值业务线离线评测的最佳实践方式之一。通过定义整体指标、场景指标、异常指标,形成较为全面的指标体系。观察新版本在不同情况下的指标整体波动和分布变化。在过程中筛出异常Case再进行人工校验。最终根据指标变化情况和人工检验结果给出结论。如无异常则可以快速通过评测。

最后,路测是导航产品效果验证的终极手段。从用户视角体验并评估全过程。虽然成本高,效率低,但必不可少,与其他手段并用,也是上线前效果保障的方式之一。

二、AB实验
部分需求尤其是模型调优。需要上线观察效果。因此在快速通过离线评测之后,进入AB阶段进行效果评估。

yanming9.png

AB的核心链路是分流打标、指标观测和实验结论产出。关键点是实验的科学性。效果评估链路中,AB能力的具备不难,但AB实验的建设是个长期的过程,在此不赘述。

三、线上验证
经过离线验证、AB实验,证明效果都是正向之后,需求通常全量上线,上线之后的效果如何,需要对线上指标进行分析,并观察用户反馈情况,了解是否在核心指标上有预期的收益,以及观察指标是否有异常变化。

一个产品的核心是满足用户需求,创造用户价值。因此是否满足了用户需求,用户满意度如何,产品在市场上的情况怎么样,必然是一个产品创造者要长期关注和回答的问题。以上便是我们试图去回答这些问题的方式。

结语
评测的建设过程,其实也是产品效果评估立体体系的搭建过程。这个职责在任何一个互联网公司都需要有人承担。不过角色也许是测试、也许是产品、也许是运营。在高德,之所以把这个角色独立出来,源于对用户体验和产品效果的重视。这一体系当然远远未臻完美,还在不断搭建进化的过程中,我们始终希望能够通过不断努力,让出行更美好。

相关文章
|
人工智能 自然语言处理 算法
阿里云智能客服知识运营白皮书
        阿里云智能客服知识运营白皮书的撰写,是协调包括算法工程师、开发工程师、产品设计师、AIT 人工智能训练师人员等多角色,将技术理论基础和实际实践经验进行结合,形成业内首部智能客服知识运营白皮书。白皮书以阿里云智能客服系统为应用标的,面向智能客服中的知识定义、知识应用、知识梳理方法三大环节进行描述和说明,希望为智能客服领域的知识应用提供具备指导性意义的方法论。一直以来,智能客服领域的知
456 1
阿里云智能客服知识运营白皮书
阿里巴巴发布《城市数字孪生能力平台总体技术要求》企业标准, 促进数字孪生互联互通生态建设
2023年3月21日,阿里巴巴集团举办城市数字孪生企业标准发布及研讨会,发布了《城市数字孪生能力平台总体技术要求》企业标准。
阿里巴巴发布《城市数字孪生能力平台总体技术要求》企业标准, 促进数字孪生互联互通生态建设
|
3天前
|
机器学习/深度学习 人工智能 算法
「我在淘天做技术」迈步从头越-阿里妈妈广告智能决策技术的演进之路
随着智能化营销产品和机器学习的发展,阿里妈妈将深度学习和强化学习等AI技术越来越多地应用到广告智能决策领域。本文将以阿里妈妈广告智能决策技术的演进为例,分享我们工作和思考。
|
11月前
|
机器学习/深度学习 人工智能 算法
阿里妈妈智能造字,设计赋能商业再升级
01.造字源始——赋能商业-文字设计在促进人类的交流与沟通方面扮演着一个重要角色,也经历着越来越多的变化,尤其是电脑技术的出现和发展给现代设计注入了新的活力,作为视觉传达的重要因素之一 ——文字,也应顺应当下的变化,以积极主动的姿态满足现代媒体和社会心理的功能需要。字体的设计伴随着商业的发展逐渐开拓了字体应用的新大门,特别是在营销相关的设计行业当中,需求量激增。专注服务于商业的阿里妈妈一直秉持“让
1052 0
阿里妈妈智能造字,设计赋能商业再升级
|
存储 机器学习/深度学习 运维
苏宁基于 AI 和图技术的智能监控体系的建设
苏宁通过 CMDB、调用链等数据构建软硬件知识图谱,在此基础上通过历史告警数据构建告警知识图谱,并最终应用知识图谱进行告警收敛和根因定位。本文主要包括运维知识图谱构建、知识图谱存储、告警收敛及根因定位等内容。
189 0
|
分布式计算 DataWorks 安全
阿里云大数据产品通过中国信通院7项产品评测,在稳定性和专项能力上取得突破
中国信通院正式公布了第十三批大数据产品能力评测结果,阿里云大数据的四款产品:大数据计算服务软件MaxCompute、大数据开发治理平台DataWorks、实时数仓Hologres、实时计算Flink版累计通过七项评测,在稳定性和专项能力上取得突破
阿里云大数据产品通过中国信通院7项产品评测,在稳定性和专项能力上取得突破
|
人工智能 移动开发 自然语言处理
从企点客服3.7版产品亮点,看智能客服如何加速企业价值落地
人工智能正在实现全场景落地,而智能客服作为较早出现的AI场景应用更在加速进化。
从企点客服3.7版产品亮点,看智能客服如何加速企业价值落地
|
机器学习/深度学习 人工智能 运维
京东金融与KDD2018:如何针对性解决城市计算痛点
7 月 21 日、22 日,由 KDD China 主办,西南交通大学和京东金融承办的 KDD Summer School 暨 KDD Pre-Conference,「交通大数据智能」论坛在成都举行,多位知名数据挖掘领域专家以及 KDD 2018 国际会议录用论文的作者介绍了自己的工作以及各自领域的进展。
143 0
京东金融与KDD2018:如何针对性解决城市计算痛点
|
人工智能 算法 自动驾驶
AI下一站:精细化生活场景的智能时代
科技对于生活而言究竟扮演的是什么角色?在科技至上者的眼中,科技是生活、社会进步的唯一钥匙,是人类长河之中向着灯塔进发的唯一燃料。而在对立者的眼中,科技的发展会迎来一个弗兰肯斯坦式的怪物,那将会是人类生活的自我终结。
3378 0
AI下一站:精细化生活场景的智能时代
|
供应链 搜索推荐 算法
何夕:泛零售企业如何构建核心数智化能力 | 数智泛零售01课回顾
大数据零售(BDDR)的核心是建立清晰有效的数据战略。
471 0
何夕:泛零售企业如何构建核心数智化能力 | 数智泛零售01课回顾