用户体验的量化分析诊断与AB实验验证方法-开发者社区-阿里云

更多精彩内容，欢迎观看：

淘宝用户体验分析方法论（上）：https://developer.aliyun.com/article/1263210?groupCode=taobaotech

数据准备

▐ 体验数据架构

同体验指标设计方法，我们将支撑体验分析的数据分为两类：

O-data = 运营数据，包括DAU、销售额、下单转化率、留存率、复购率等，属于滞后数据，代表着现阶段的经营现状。
X-data = 体验感知数据，包括净推荐值、满意度、用户原声等，属于先行数据，代表收入或利润的未来风险。

体验分析的核心思维就是O数据与X数据的协同分析，基石是用户体验旅程。缺少O数据会让我们偏离商业本质，缺少X数据会让我们“盲猜”用户。兼顾到采集SDK和数据平台的规划设计，数据准备阶段我们需要有体系化的视角实现全面的体验感知。

O&X协同的体验数据架构

在“用户是谁”环节，O与X协同能够让我们知道同一款产品Android/iOS、男/女用户满意度分别有何差异；结合用户反馈数据，我们还能获知本次旅程真正的用户是谁，例如：帮女朋友买生日礼物、帮儿子买书包等。在“如何了解产品”环节，O与X协同能让我们了解用户在某一页面关注度最高是哪个功能模块，关联进线咨询VOC数据还可获知该模块中具体是哪类信息缺失、模糊不清，影响用户购物决策。

▐ VOC标签体系

用户体验偏主观且因人而已，与用户自身的预期强相关，通常很难通过绝对客观数据来评价用户体验好坏。VOC（Voice Of Customer）是一种能够直接获知用户体验的数据源。淘宝VOC是多源、多模态的，一方面，数科同学需要了解多源VOC的产生场景以便在合适的案例进行选择和使用；另一方面，需要将VOC加工成标签以便高效进行分析。
分析应用层面需要注意各类VOC的特点以便合理选择：

1 APP用户反馈：偏购前，大多为用户在使用APP过程中遇到的产品、性能体验的问题反馈，同时也包含部分热心用户提出的诚恳建议。
2 商家客服咨询：偏购中和购后，大多为用户购中咨询商品，购后咨询订单和物流状态的场景，其中购后约50%以上语料为咨询物流。
3 CCO求助原声：偏购后纠纷求助，大多围绕订单和物流异常求客服。
4 评价：购后评价商品，使用时注意存在大量刷评数据。
5 问大家：购前基于商品的C2C的咨询，回复比较真实，但数据总量不大。

问题发现

有了评估指标和数据，如何基于这些数据评估体验好坏、发现问题？日常生活和工作中，我们之所以会评价，是因为我们内心对每件事情都有个标准，这个标准可能是潜在的或显性的。例如：我们对美丑的评价标准就是潜在的，而对考试成绩（60分为及格分）的评价标准就是显性的。之所为能够发现问题，是因为我们内心有一套清晰或模糊的标准，看到现实与标准有差距，就知道存在问题。显性标准很多来自历史数据和经验的总结，例如大名鼎鼎的NPS指标，业内有一个基本评估标准：

经过长期调研和总结形成一个关于产品满意度的评估标准：需改善（<50%），良好（50%-60%），优秀（>60%）。而大多数体验场景缺乏显性标准，故需要一套分析方法来判断体验好坏。

▐ 分析方法

问题发现阶段主要通过指标的趋势、排名、波动监测，以及未知原声异常监测（聚类检测、词云），跟踪老问题，发现新问题。

通常涉及两类指标：用户调研为主的满意度、驱动因素类指标，用户原声及其加工后标签统计类指标。对于满意度这类单一汇总类指标，通常可以跟自己比（看趋势）、跟竞对比（看标杆）发现问题。对于用户原声这类非结构化数据，通常应用于跟踪、发现和诊断“点”层面体验问题，可通过文本分类方法加工成体验问题标签，再基于标签的声量/占比的趋势变化、排名变化发现问题；此外，也可通过文本聚类方法挖掘新标签，实时检测未知问题的发生。

由于指标的复杂度不高（如高维、多周期等），该阶段整体以原子分析方法为主：

问题诊断

通过性能体验、物流体验、客服体验、商品体验等多领域的案例总结，我们将体验诊断及优化过程中存在的问题进行如下分类：

▐ 诊断分析方法

诊断分析主要是通过用户洞察、归因分析、价值衡量等方式，挖掘问题发生的原因，给出体验优化建议和策略。基于体验问题本身的不同类别，我们梳理了一套面向体验场景诊断分析方法，其特点在于对X-data的灵活运用：

▐ 诊断分析案例

主客观关联分析

案例：目标定义-性能优化目标

1 业务问题定义：如何针对不同人群设定差异化性能优化目标，能兼顾技术投入与用户预期满足，达成ROI最大化。
2 数据问题定义：如何找到一个与性能满意度强关联的指标，围绕这个指标设定合理的目标，再按一定的维度下拆指标找到差异化目标。
3 找出与满意度强相关的指标通过用户问卷调研并作结构分析可得出：影响用户的核心因素为“功能加载速度慢”、“打开APP速度慢”，由于“功能加载速度慢”是由一系列功能（如各类页面、模块）组成，明确“打开APP速度慢”是首页因素。
4 建立主客观指标模型，寻找两者之间的关联关系

观指标：负向反馈率（问卷中反馈“打开手机淘宝APP的速度慢”的样本数/总样本数）

客观指标：冷启可交互耗时

如上图，通过主客观关联分析发现某款机型下某App负向反馈率在冷启耗时x ms出现拐点。可得出，性能差于拐点时，性能优化能明显带来负向反馈率下降；性能优于拐点时，性能优化对于体验的提升效益不再显著。因此，可以设定x ms作为该机型下该APP性能优化目标。

用户动线分析

案例：策略制订-详情用户动线分析

1 业务问题定义：如何基于用户在详情页面的行为数据找到产品改进机会点以提升用户决策效率。
2 数据问题定义：如何围绕“什么样的用户”进入“什么商品”产生了“什么样的浏览行为”梳理详情页各模块的浏览、点击、停留时及行为时序数据，挖掘主流用户的行为路径及关注点差异，交付详情决策因子的补全、调序和表达优化策略，提升详情决策效率。
3 分析思路：前提假设：不同人群、类目、场景的用户决策因子的差异化和增强表达，可提升详情用户浏览体验，提升购物决策效率。
假设树：
4 分析结论（示例）：

策略落地

问题诊断阶段类似医生的门诊、开方子，策略落地阶段类似于治疗。数科同学在该阶段需要总结的更多是如何推进策略落地的工作方法。我们分别定义如下几个问题，并阐述解决方法。
问题1、如何让业务支持我们的分析？

首先，要证明你的分析是正确的；
其次，需要有非常准确的、可靠的价值描述；
最终，必须有清晰明确、成本可控的落地方案。

问题2、业务认可我们的分析，但不协助推进，如何处理？

1 确定是否真认可？任何业务方做成事都是梦寐以求的，假设结论靠谱、能落地，绝对不会置之不理；
2 业务方质疑分析，或者觉得价值不大，疑惑是和自身关系不大，需要鼓起勇气再次咨询意见，解决质疑；
3 价值不足够大，当前有更加紧急的事情要做，代表结论可能要凉；
4 没找对人，需要换一个业务再营销一遍，有时候策略搁置无法执行的原因是数据同学本身没有充分推动。

问题3、如何让其它团队配合数据策略落地？

1 前期充分了解和识别相关团队的OKR、定位和合作意愿度，做好沟通工作；
2 重要策略需申请PMO资源，组织正式KickOff，特别地要拉上业务和技术老板压阵，传达大家重视程度，明确各团队职责分工，达成一致；
3 过程中做好项目管理，PMO投入不足时数据负责人要主动补位做好协调工作。

总结一个数据策略能否落地，分析本身是否正确占10%，剩下是分析本身的价值；数据同学需要懂得对企业内部、人物关系、环境背景的分析。

效果验证

▐ AB实验

什么是AB实验

AB实验是最直观的一种评估策略因果效应的科学手段，做AB实验需要两个前提条件：同质性与无偏性。实验中的不同组应该是同质的，意味着样本构成需相同或极其相似以确保结果的可比性，这通常是通过平台工具随机分流来实现。实验也应该是公正的，核心指标只受实验策略本身的直接影响。只有控制了全部干扰因素，才有可能接近Treatment和Result之间的因果关系。相对传统的优化前后对比方式，AB实验有以下优势：

1 同质 - 保证可比性

可以有效控制其他干扰因素。
可以避免选择性偏差。

2 无偏 - 保证效果复现

AB的一般步骤

明确AB假设和实验变量
AB实验不是价值衡量的许愿池，我们先要回答一个问题：如何判断一个策略是否可以通过AB实验来进行评估？避免无用功或引发舆情。AB有其特定的适用场景，如下场景是无法进行AB或者成本过高：

策略已经全量，需后置评估策略上线效果
策略渗透率过低，使用AB无法得到置信的样本量
策略本身不具备随机AB的条件
进行AB的成本较高，ROI较低

判断可以AB后需明确实验变量，一个好的实验变量要满足以下几点：

实验变量需根据假设来创建
需要符合单一变量原则

定义实验关键指标

确定分流方式

如何确定分流对象及保证分流的均匀性是该步骤需要解决的问题：

1 分流对象：分流对象是需根据核心指标来确认，例如：在短视频场景，提升引导GMV则分流对象就是用户，提升创作者活跃度则分流对象是创作者。在端性能优化场景，提升设备顺畅度分流对象就是设备id，而非用户id。
2 分流均匀性：AA空跑是检验分流均匀性的常用手段，选定的实验组和对照组，在上实验策略前先空跑一段时间。如果空跑期的样本量和各项指标均无显著差异，则认为实验分流是均匀的。

最小样本量测算

实验希望能检测到的指标精度越高，所需要的样本量就越大，这样可以使实验的敏感度大于我们预期的策略效果提升(MDE)。因此，针对我们希望检测到的预估效果MDE（通常由离线测算所得，如5%/10%等)，我们需要计算实验所需要的最小样本量。在给定错误容错率下，最小样本量由MDE、均值、方差共同决定。此处需要注意的是不同的指标类型的方差计算方式是不同的，在实操中如果分流单元和分析单元不一致需要特殊处理。

附：最小样本计算公式及Python实现，也可基于Evan's Awesome A/B Tools在线网站进行测算。

from statsmodels.stats.power import zt_ind_solve_powerfrom statsmodels.stats.proportion import proportion_effectsize as eszt_ind_solve_power(effect_size=es(prop1=0.30, prop2=0.305), alpha=0.05, power=0.8, alternative="two-sided")

实验日常监测

在进入实验期后，需要对实验数据进行日常监测，日常监测主要观察以下几方面：

1 样本量。在实验的过程中，应当日常观测实验组和对照组的样本量是否均匀。如果在进入实验期后，实验组相比对照组的样本量出现显著差异，应当立即排查样本量不平的原因（实验策略导致分流不均？实验策略埋点上报有问题？）
2 各项实验指标。如果在实验的过程中，实验组和对照组的指标出现不符合预期的差距，也应当立即排查该现象出现的原因。
3 核心护栏指标。如果实验策略对实验组的核心护栏指标产生严重的负向影响，例如：广告收入严重下降，也应立即同步各方，决定是否停止实验。

实验效果分析

在实验周期结束后，需要根据实验数据进行分析。A/B test分析将显示两个版本之间是否存在统计性显著差异，所以在分析结论时不止要观注实验分组之前的差异性，还要关注置信度和置信区间等统计指标来检测差异的真实性及可信度。在分析实验数据时，通常会有以下问题：

1 实验指标不显著怎么办？
可以看一下核心指标的走势，如果有单调递增的趋势，可以适当延长实验时间再看一下效果，大样本是王道。其次判断统计功效问题，如果在进行了样本量计算后，实验指标依然不显著，则一方面需要通过观察实验指标的相对/绝对差值考虑是否实验策略真的没有显著影响，另一方面可以通过更换监测指标剔除无渗透用户以提高指标检测精度。
2 是否可以通过实验数据，找到对实验策略敏感的用户群体？
找敏感用户群体可以通过维度拆解的方式，观察实验策略对不同用户群体的影响差异；也可以通过causal tree/uplift model的方式，从模型角度计算单个用户群体/单个用户的CATE，从而对实验效果的异质性进行探究。
3 关注的多个实验指标有正有负，如何判断是否可推全？
首先，确认哪边的指标是本实验更重要的指标，同时关注护栏指标和北极星指标的情况（若护栏指标和北极星指标显著负向，拒绝推全）。其次，判断正负指标是否存在相关性或者是否存在兑换关系，综合盘整体收益是如何。
4 如果实验效果不好，没有推全，是否说明这个实验没有任何价值？
很多AB实验结果都是失败的，如果某个实验没有推全，我们依然可以通过实验数据，去探寻本次实验失败的原因，从而发现是否有新的可能的改进点。根据新的改进点继续进行实验，最终进行策略的快速迭代。

如何检验分流均匀性

网上不少文章介绍如何运用卡方检验来检验实验UV分流均匀性，但在大型APP场景下往往不适用，根因是单个AB实验分桶的UV往往达几十万、上百万，大样本量下卡方检验过于灵敏，p-value容易接近0.0。因此推荐引用效应量函数来辅助决策，通过计算分流系统不同流量下的95%置信的偏差上限，并利用指数函数进行拟合，从而在实际应用中可以给出不同分桶UV样本量下的阈值。

备注：受不同的实验分流系统中内置hash函数及分流对象本身的均匀性影响效应量函数参数会不同。

附：效应量函数图

如何检验指标显著性

网上同样很多文章介绍如何综合运用样本分布+t-test检验指标显著性统计原理，这里不作过多介绍。但鲜有交代如何构建样本，此外，最小样本量计算与指标显著性检验的前提关系是什么？

针对一个比率型指标（如：浏览转化率），我们首先根据其基线值和预期提升幅度通过最小样本量公式计算其所需的累计样本量，满足最小样本条件后再基于分流对象进行hash分组（一般分为30组以满足t-test的样本量需求），再运用显著性检验UDF进行检验。

案例：某AB实验指标显著检验

▐ 因果推断

这里主要介绍因果推断中PSM倾向得分匹配法在效果验证中的原理和应用。

定义：PSM倾向得分匹配法，是通过对数据建模，为每个用户拟合⼀个概率（多维特征拟合成一维的概率），在对照组样本中寻找和实验组最接近的样本，从而进行比较。
前提：

条件独立假设。在接受实验之前，对照组和实验组之间没有差异，实验组产生的效应完全来自实验处理。
共同⽀撑假设。在理想情况下，实验组的个体，都能在对照组中找到对应的个体。如下图，两组共同取值较少时，就不适用PSM了。

场景：无法做严格AB实验的场景

现实场景中存在一些产品和运营策略不适合做AB实验，例如A组和B组采取不同的价格策略，会损害用户体验造成投诉。

AB实验中低响应分析场景

AB实验中实验组真正具有响应行为的用户很少，需要通过PSM和网格化的方法找到相应行为同质的用户作为分析对照组，从而起到缩小分母提升检验显著性的灵敏度。

实现：pymatch：https://github.com/benmiroglio/pymatch#match-data

参考文献

黄峰等 - 《体验思维》、《全面体验管理》
刑焱等 - 《客户体验管理 - 知行合一》

淘宝用户体验分析方法论（下）

数据准备

▐ 体验数据架构

▐ VOC标签体系

问题发现

▐ 分析方法

问题诊断

▐ 诊断分析方法

▐ 诊断分析案例

案例：目标定义-性能优化目标

案例：策略制订-详情用户动线分析

策略落地

效果验证

▐ AB实验

案例：某AB实验指标显著检验

▐ 因果推断

参考文献

大淘宝技术

热门文章

最新文章

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

淘宝用户体验分析方法论（下）

数据准备

▐ 体验数据架构

▐ VOC标签体系

问题发现

▐ 分析方法

问题诊断

▐ 诊断分析方法

▐ 诊断分析案例

案例：目标定义-性能优化目标

案例：策略制订-详情用户动线分析

策略落地

效果验证

▐ AB实验

案例：某AB实验指标显著检验

▐ 因果推断

参考文献

大淘宝技术

热门文章

最新文章

相关电子书