A2M峰会直击|闲鱼纳米镜——人人都是数据分析师

简介: A2M人工智能与机器学习峰会分享

闲鱼技术-仝辉

背景

       闲鱼的业务在发展过程中,伴随着大量的活动和各种各样的实验。一般运营活动前期需要对市场进行调研,了解用户群体;中期进行活动设计和活动实验,根据实验效果调整活动方案;后期则进行复盘工作,整理相关数据,进行总结和分析。


TB1dgY4YEz1gK0jSZLeXXb9kVXa-1738-702.png




       然而,伴随着闲鱼体量的增长,原先定性的问题分析变得难以快速而准确的洞悉业务的真实状况。例如,在拉新场景下,如何引导用户、如何承接用户和如何提升权益,这些都需要做深入的数据分析。


TB1fViYlIVl614jSZKPXXaGjpXa-1954-854.png

痛点

       当遇到相关的数据问题时,运营需要跟数据工程师提出需求,然而随着闲鱼业务越来越复杂,相关的需求也越来越多,例如需求1、需求2、需求N。这些需求的时间周期通常会比较长,无法很好的满足各类业务诉求。


TB1sUDol9R26e4jSZFEXXbwuXXa-1662-1006.png

       因此,我们希望通过纳米镜引入实时数据分析能力,来解决此类的业务痛点问题。

解决思路

       解决思路:数据科学平民化。通过搭建闲鱼人货场数据体系,将数据采集、数据清洗和模型开发都封装成接口,提供动态切面下钻、智能切面分析和指标预测的能力。


TB18zkfYxv1gK0jSZFFXXb0sXXa-1732-708.png

数据搭建

       闲鱼人货场数据体系的搭建,将人群数据、商品数据和策略数据的标签和指标全部汇总,为后续分析打下数据基础。


TB1W.ECoaNj0u4jSZFyXXXgMVXa-2052-826.png

       此外,一些在标签库以外所需要的数据,我们通过自定义DSL的方式从客户端埋点获取。


TB1ZGVfYKL2gK0jSZPhXXahvXXa-1714-976.png

功能

动态下钻

步骤:

1)先选择一个特定活动和特定指标

2)选择一个比较感兴趣的切面做二次分析,选择下钻按钮,例如选择敏感人群切面

3)再分析得到敏感人群+用户性别切面的情况


TB1Y1L7Yvb2gK0jSZK9XXaEgFXa-1930-490.png

人货场的切面非常多,选择切面需要对这些切面有比较深入的理解。那么,如果运营不知道选哪些切面如何处理?引入智能切面分析。

智能切面分析

目的:

找到指标提升效果最显著的人群切面组合,帮助运营快速找到较合理的子人群, 从而做进一步的干预。

内容:

智能切面分析包含了两个部分:

  1)活动指标切面分析: 找出活动本身效果最好的切面组合

  2)AB桶效果切面分析: 找出实验桶和对照桶差异最大的切面组合

方法:

结合相关分析、波动分析和决策树的思路,包含了以下两个部分:

  1)活动指标切面分析: 找出活动本身效果最好的切面组合

  2)AB桶效果切面分析: 找出实验桶和对照桶差异最大的切面组合

活动指标切面分析

活动指标切面分析目的是找出活动本身效果最好的切面组合,给出的分析结果:

  1) 获取效果最显著的人群切面组合,并给出每个人群切面下的指标结果

  2) 给出每个切面下最小样本量,小于最小样本量则结果有一定的偶然性和不确定性

获取这些分析结果的具体步骤如下:

  1)分析数据:输入几十个切面和单个分析指标。切面:例如性别、年龄、职业等,指标:例如购买率、发布率、次留率等。

  2)相关分析:分析切面和指标,切面和切面的相关性,剔除一些强相关的切面。例如7天内购买数量和14天购买数量这两个切面如果存在强相关性只需要留一个就可以了。

  3)聚类分析:将切面的连续型数值通过聚类算法聚类成离散的类别。

  4)信息增益率计算:计算信息增益率最大的切面,并在这个切面的基础上递归获取最大信息增益的切面。

  5)剪枝:小于人数和增益率的阈值,则剔除子节点。

  6)获取最佳切面:分析切面有效性,计算最小有效样本量。


TB1FzYsxkT2gK0jSZFkXXcIQFXa-392-1008.png

       我们会从几十个切面,例如职业、点击数、性别、年龄、消费水平等等几十个切面中进行切面分析,得到指标最优的切面组合。给出的结论如下所示(考虑到数据安全,以下数据非真实数据,仅供参考):

       活动命中人数1000000,活动整体(是否当日新购买)指标为5%, 其中年龄区间=20~30岁,性别=女性,人群切面的活动效果最佳(该切面人群数量为200000,最小样本量为10000,指标值为10%),后续可以根据人群切面的效果做策略调整。



TB1txyixHY1gK0jSZTEXXXDQVXa-1674-686.png

AB桶效果切面分析

       AB桶效果切面分析目的是找出受到活动印象最大和最小的切面组合。基于AB实验的人群切面数据差异对比,我们可以对正向影响人群做放大投放,对负向影响人群减少投放。

       例如,活动指标切面分析购买率最高的切面:年龄区间=20~30岁,性别=女性,人群切面的活动效果最佳。这时候只能证明这个活动切面是购买意愿最强的,不能证明是否是活动带来的增量。例如在活动指标切面分析中发现年龄区间=20~30岁,性别=女性的切面效果是最好的,但是不是活动带来增量最大的切面,带来活动增量最大的切面是年龄区间=30~40岁,性别=女性。




TB1Y6WjxQT2gK0jSZPcXXcKkpXa-1412-1098.png

AB桶效果切面分析具体步骤与活动指标切面分析类似,具体如下:

  1)分析数据:输入几十个切面和单个分析指标。切面:例如性别、年龄、职业等,指标:例如购买率、发布率、次留率等。

  2)相关分析:分析切面和指标,切面和切面的相关性,剔除一些强相关的切面。例如7天内购买数量和14天购买数量这两个切面如果存在强相关性只需要留一个就可以了。

  3)聚类分析:将切面的连续型数值通过聚类算法聚类成离散的类别。

  4)选取合理的切面组合:选取切面组合,计算最小有效样本量,设置阈值剔除人数过少和不满足最小样本量的切面组合。

  5)获取最佳切面:获取差异最大和最小的切面组合。


TB17byixND1gK0jSZFsXXbldVXa-414-860.png

       通过以上的AB桶效果切面分析,我们就能拿到活动给各个人群切面带来的正负向影响。对切面30~40岁,性别=女性人群加大投放,对于没有明显提升效果的人群减少投放。

指标预测

       之前提到的动态下钻和智能切面分析都是在实验后做的分析,那么能否在实验前做一些预测,来加快实验的迭代时间呢?我们引入了指标预测功能。


TB1dY8CYKL2gK0jSZFmXXc7iXXa-2024-894.png

结果

       纳米镜现在可以分析闲鱼线上已有的活动,包括222、红包、导卖活动等。运营只需要输入活动ID和对应分析的时间,即可通过交互界面分析得到相关的结果.考虑到数据安全,已经隐去了相关敏感字段, 分析结论示例如下:


活动指标切面分析结论

活动命中人数xxx,活动整体(是否当日新购买)指标为4.77%, 其中用户年龄=xxx人群切面的活动效果最佳(该切面人群数量为xxx,指标值为5.71%)


AB分桶效果切面分析结论

是否当日新购买指标在以下3个切面的提升最大,分别是:

1、桶xx(人数xxx 指标值5.62%)相比桶others(人数xxx 指标值4.86%)在切面是否敏感人群=1,30天内买家身份互动过的天数=xxx提升了0.76%(该置信度最小人数为xxx)

2、桶xx(人数xxx 指标值5.72%)相比桶others(人数xxx 指标值4.91%)在切面是否敏感人群=1,是否当天新会员=0提升了0.81%(该置信度最小人数为xxx)

3、桶xx(人数xxx 指标值5.73%)相比桶others(人数xxx 指标值4.91%)在切面最近30天的访问天数=x,是否敏感人群=1提升了0.81%(该置信度最小人数为xxx)

指标预测分析结论

在预热阶段就准确预测了闲鱼222活动当天的购买率,为后续及时调整运营调整素材争取了时间。


TB16WJrYFT7gK0jSZFpXXaTkpXa-822-692.png

展望

       后续,我们希望可以通过利用已有的知识,搭建闲鱼知识库并仿真运营结果,帮助运营降低运营成本和减少活动迭代周期。

相关文章
|
SQL 数据可视化 数据挖掘
2017云栖大会·杭州峰会:《在线用户行为分析:基于流式计算的数据处理及应用》之《数据可视化:构建实时动态运营数据分析大屏》篇
2017云栖大会·杭州峰会:《在线用户行为分析:基于流式计算的数据处理及应用》之《数据可视化:构建实时动态运营数据分析大屏》篇
5587 0
|
3月前
|
数据采集 数据可视化 数据挖掘
数据分析大神养成记:Python+Pandas+Matplotlib助你飞跃!
在数字化时代,数据分析至关重要,而Python凭借其强大的数据处理能力和丰富的库支持,已成为该领域的首选工具。Python作为基石,提供简洁语法和全面功能,适用于从数据预处理到高级分析的各种任务。Pandas库则像是神兵利器,其DataFrame结构让表格型数据的处理变得简单高效,支持数据的增删改查及复杂变换。配合Matplotlib这一数据可视化的魔法棒,能以直观图表展现数据分析结果。掌握这三大神器,你也能成为数据分析领域的高手!
72 2
|
3月前
|
机器学习/深度学习 数据采集 数据可视化
基于爬虫和机器学习的招聘数据分析与可视化系统,python django框架,前端bootstrap,机器学习有八种带有可视化大屏和后台
本文介绍了一个基于Python Django框架和Bootstrap前端技术,集成了机器学习算法和数据可视化的招聘数据分析与可视化系统,该系统通过爬虫技术获取职位信息,并使用多种机器学习模型进行薪资预测、职位匹配和趋势分析,提供了一个直观的可视化大屏和后台管理系统,以优化招聘策略并提升决策质量。
165 4
|
3月前
|
机器学习/深度学习 算法 数据挖掘
2023 年第二届钉钉杯大学生大数据挑战赛初赛 初赛 A:智能手机用户监测数据分析 问题二分类与回归问题Python代码分析
本文介绍了2023年第二届钉钉杯大学生大数据挑战赛初赛A题的Python代码分析,涉及智能手机用户监测数据分析中的聚类分析和APP使用情况的分类与回归问题。
79 0
2023 年第二届钉钉杯大学生大数据挑战赛初赛 初赛 A:智能手机用户监测数据分析 问题二分类与回归问题Python代码分析
|
1天前
|
SQL 数据挖掘 Python
数据分析编程:SQL,Python or SPL?
数据分析编程用什么,SQL、python or SPL?话不多说,直接上代码,对比明显,明眼人一看就明了:本案例涵盖五个数据分析任务:1) 计算用户会话次数;2) 球员连续得分分析;3) 连续三天活跃用户数统计;4) 新用户次日留存率计算;5) 股价涨跌幅分析。每个任务基于相应数据表进行处理和计算。
|
1月前
|
机器学习/深度学习 数据采集 数据可视化
数据分析之旅:用Python探索世界
数据分析之旅:用Python探索世界
25 2