闲鱼技术-仝辉
背景
闲鱼的业务在发展过程中,伴随着大量的活动和各种各样的实验。一般运营活动前期需要对市场进行调研,了解用户群体;中期进行活动设计和活动实验,根据实验效果调整活动方案;后期则进行复盘工作,整理相关数据,进行总结和分析。
然而,伴随着闲鱼体量的增长,原先定性的问题分析变得难以快速而准确的洞悉业务的真实状况。例如,在拉新场景下,如何引导用户、如何承接用户和如何提升权益,这些都需要做深入的数据分析。
痛点
当遇到相关的数据问题时,运营需要跟数据工程师提出需求,然而随着闲鱼业务越来越复杂,相关的需求也越来越多,例如需求1、需求2、需求N。这些需求的时间周期通常会比较长,无法很好的满足各类业务诉求。
因此,我们希望通过纳米镜引入实时数据分析能力,来解决此类的业务痛点问题。
解决思路
解决思路:数据科学平民化。通过搭建闲鱼人货场数据体系,将数据采集、数据清洗和模型开发都封装成接口,提供动态切面下钻、智能切面分析和指标预测的能力。
数据搭建
闲鱼人货场数据体系的搭建,将人群数据、商品数据和策略数据的标签和指标全部汇总,为后续分析打下数据基础。
此外,一些在标签库以外所需要的数据,我们通过自定义DSL的方式从客户端埋点获取。
功能
动态下钻
步骤:
1)先选择一个特定活动和特定指标
2)选择一个比较感兴趣的切面做二次分析,选择下钻按钮,例如选择敏感人群切面
3)再分析得到敏感人群+用户性别切面的情况
人货场的切面非常多,选择切面需要对这些切面有比较深入的理解。那么,如果运营不知道选哪些切面如何处理?引入智能切面分析。
智能切面分析
目的:
找到指标提升效果最显著的人群切面组合,帮助运营快速找到较合理的子人群, 从而做进一步的干预。
内容:
智能切面分析包含了两个部分:
1)活动指标切面分析: 找出活动本身效果最好的切面组合
2)AB桶效果切面分析: 找出实验桶和对照桶差异最大的切面组合
方法:
结合相关分析、波动分析和决策树的思路,包含了以下两个部分:
1)活动指标切面分析: 找出活动本身效果最好的切面组合
2)AB桶效果切面分析: 找出实验桶和对照桶差异最大的切面组合
活动指标切面分析
活动指标切面分析目的是找出活动本身效果最好的切面组合,给出的分析结果:
1) 获取效果最显著的人群切面组合,并给出每个人群切面下的指标结果
2) 给出每个切面下最小样本量,小于最小样本量则结果有一定的偶然性和不确定性
获取这些分析结果的具体步骤如下:
1)分析数据:输入几十个切面和单个分析指标。切面:例如性别、年龄、职业等,指标:例如购买率、发布率、次留率等。
2)相关分析:分析切面和指标,切面和切面的相关性,剔除一些强相关的切面。例如7天内购买数量和14天购买数量这两个切面如果存在强相关性只需要留一个就可以了。
3)聚类分析:将切面的连续型数值通过聚类算法聚类成离散的类别。
4)信息增益率计算:计算信息增益率最大的切面,并在这个切面的基础上递归获取最大信息增益的切面。
5)剪枝:小于人数和增益率的阈值,则剔除子节点。
6)获取最佳切面:分析切面有效性,计算最小有效样本量。
我们会从几十个切面,例如职业、点击数、性别、年龄、消费水平等等几十个切面中进行切面分析,得到指标最优的切面组合。给出的结论如下所示(考虑到数据安全,以下数据非真实数据,仅供参考):
活动命中人数1000000,活动整体(是否当日新购买)指标为5%, 其中年龄区间=20~30岁,性别=女性,人群切面的活动效果最佳(该切面人群数量为200000,最小样本量为10000,指标值为10%),后续可以根据人群切面的效果做策略调整。
AB桶效果切面分析
AB桶效果切面分析目的是找出受到活动印象最大和最小的切面组合。基于AB实验的人群切面数据差异对比,我们可以对正向影响人群做放大投放,对负向影响人群减少投放。
例如,活动指标切面分析购买率最高的切面:年龄区间=20~30岁,性别=女性,人群切面的活动效果最佳。这时候只能证明这个活动切面是购买意愿最强的,不能证明是否是活动带来的增量。例如在活动指标切面分析中发现年龄区间=20~30岁,性别=女性的切面效果是最好的,但是不是活动带来增量最大的切面,带来活动增量最大的切面是年龄区间=30~40岁,性别=女性。
AB桶效果切面分析具体步骤与活动指标切面分析类似,具体如下:
1)分析数据:输入几十个切面和单个分析指标。切面:例如性别、年龄、职业等,指标:例如购买率、发布率、次留率等。
2)相关分析:分析切面和指标,切面和切面的相关性,剔除一些强相关的切面。例如7天内购买数量和14天购买数量这两个切面如果存在强相关性只需要留一个就可以了。
3)聚类分析:将切面的连续型数值通过聚类算法聚类成离散的类别。
4)选取合理的切面组合:选取切面组合,计算最小有效样本量,设置阈值剔除人数过少和不满足最小样本量的切面组合。
5)获取最佳切面:获取差异最大和最小的切面组合。
通过以上的AB桶效果切面分析,我们就能拿到活动给各个人群切面带来的正负向影响。对切面30~40岁,性别=女性人群加大投放,对于没有明显提升效果的人群减少投放。
指标预测
之前提到的动态下钻和智能切面分析都是在实验后做的分析,那么能否在实验前做一些预测,来加快实验的迭代时间呢?我们引入了指标预测功能。
结果
纳米镜现在可以分析闲鱼线上已有的活动,包括222、红包、导卖活动等。运营只需要输入活动ID和对应分析的时间,即可通过交互界面分析得到相关的结果.考虑到数据安全,已经隐去了相关敏感字段, 分析结论示例如下:
活动指标切面分析结论:
活动命中人数xxx,活动整体(是否当日新购买)指标为4.77%, 其中用户年龄=xxx人群切面的活动效果最佳(该切面人群数量为xxx,指标值为5.71%)
AB分桶效果切面分析结论:
是否当日新购买指标在以下3个切面的提升最大,分别是:
1、桶xx(人数xxx 指标值5.62%)相比桶others(人数xxx 指标值4.86%)在切面是否敏感人群=1,30天内买家身份互动过的天数=xxx提升了0.76%(该置信度最小人数为xxx)
2、桶xx(人数xxx 指标值5.72%)相比桶others(人数xxx 指标值4.91%)在切面是否敏感人群=1,是否当天新会员=0提升了0.81%(该置信度最小人数为xxx)
3、桶xx(人数xxx 指标值5.73%)相比桶others(人数xxx 指标值4.91%)在切面最近30天的访问天数=x,是否敏感人群=1提升了0.81%(该置信度最小人数为xxx)
指标预测分析结论:
在预热阶段就准确预测了闲鱼222活动当天的购买率,为后续及时调整运营调整素材争取了时间。
展望
后续,我们希望可以通过利用已有的知识,搭建闲鱼知识库并仿真运营结果,帮助运营降低运营成本和减少活动迭代周期。