数据分析之AB testing实战(附Python代码)(二)

简介: 数据分析之AB testing实战(附Python代码)(二)

② 将用户流量对应分成几组,在保证每组用户特征相同的前提下,让用户分别看到不同的方案设计;

 注意几个术语,这个在后面的实战代码中有用。在做AB testing的时候,一般分为control组和treatment组,其中control组看到的是老页面(old page),treatment组看到的是新页面(new page)。

image.png


③ 根据几组用户的真实数据反馈,科学的帮助产品进行决策;

 通过分析用户使用的日志数据,来决定是扩大实验,还是继续修改方案,重新迭代。如果判定实验成功,则扩大实验范围。如果判定实验失败,终止本次实验,继续修改方案

image.png


3、AB testing实战

1)AB testing的统计学基础(独立双样本的假设检验)

 关于假设检验这个知识点,我在前面的文章中已经详细介绍过,这里就不一一说明,截取了几张图片供大家参考,大家如果感兴趣,可以看一下这篇文章:https://blog.csdn.net/weixin_41261833/article/details/104623377


① ab testing

image.png


② 假设检验

image.png


③ 显著性水平

image.png


④ 统计量

image.png


2)AB testing演示的python代码

 再进行代码演示之前,我们先对每个字段做一个说明:user_id是用户的id;timestamp 是用户访问页面的时间;group 表示把新的落地页分到treatment组、把旧的落地页分到了control组;landing_page表示的是落地页;converted 表示的是否转化,1表示转化(通俗的说:拿爱奇艺会员来说,普通用户是否转换为了VIP用户,1表示转换了,0表示未转换);


import pandas as pd
---------------------------------------------------------
# 读取数据,查看前5行
df = pd.read_csv("ab_test.csv")
df.head()
---------------------------------------------------------
# 数据预览,查看数据有多少行、多少列
df.shape
---------------------------------------------------------
# 查看数据中是否有空值
df.isnull().any()
df.info()
---------------------------------------------------------
# 查看数据中的错误行
print((True) != (True))
print((True) != (False))
print((False) != (True))
print((False) != (False))
"""
true  != true   fasle    treatment  new_page
true  != false  true     treatment  old_page
false != true   true     control    new_page
false != false  false    control    old_page
"""
# 下面这句代码,展示的就是group=treatment且landing_page=old_page和group=control且landing_page=new_page,这样的错误行;
num_error = df[((df.group == "treatment")!=(df.landing_page == "new_page"))].shape[0]
num_error
---------------------------------------------------------
# 去掉错误行后,再次查看是否还存在错误行
print("没有删除错误行之前的记录数:", df.shape[0])
df2 = df[~((df.landing_page == "new_page")&(df.group == "control"))]
df3 = df2[~((df2.landing_page == "old_page")&(df2.group == "treatment"))]
print("删除错误行之后的记录数:", df3.shape[0])
print("错误行共有",str(df.shape[0]-df3.shape[0]),"条记录")
num_error2 = df3[((df3.group == "treatment")!=(df3.landing_page == "new_page"))].shape[0]
num_error2
---------------------------------------------------------
# 查看是否有重复行
print("数据的记录数为:", df3.user_id.shape[0])
print("将user_id去重计数后的记录数为:", df3.user_id.nunique())
"""
通过上述分析,可以看出:user_id中有一条记录数是重复的。接下来,我们可以找出这条重复的记录,并去重。
"""
---------------------------------------------------------
# 查看重复的行
df3[df3.user_id.duplicated(keep=False)]
#  去除重复的行
df4 = df3.drop_duplicates(subset=["user_id"],keep="first")
df4.shape[0]
---------------------------------------------------------
# 我们来看一下control组的转化率
control_converted = df4.query('group=="control"').converted.mean()
control_converted
# 再来看一下treatment组的转化率
treatment_converted = df4.query('group=="treatment"').converted.mean()
treatment_converted
"""
自己下去思考一下:根据上述结果,老页面的转化率比新页面的转换率好,是不是就可以说明老页面好呢?
"""
---------------------------------------------------------
# 进行独立两样本的假设检验
import statsmodels.stats.proportion as ssp
converted_old = df4[df4.landing_page == "old_page"].converted.sum()
converted_new = df4[df4.landing_page == "new_page"].converted.sum()
n_old = len(df4[df4.landing_page == "old_page"])
n_new = len(df4[df4.landing_page == "new_page"])
data = pd.DataFrame({"converted":[converted_old, converted_new],
                     "total":[n_old ,n_new]})
display(data)
z_score, p_value = ssp.proportions_ztest(count=data.converted, nobs=data.total, alternative="smaller")
print("Z值为:", z_score)
print("P值为:", p_value)
---------------------------------------------------------


结果如下:

image.png

结果分析:通过上述的结果发现,P值为0.9,远大于0.05,也就是说,我们没有理由拒绝原假设,即只能接受原假设,也就是新老版本之间没有太大的差别。我们接下来要做的就是终止这次试验,继续优化自身的方案。


3)AB testing拓展

 关于AB testing的相关知识,我们就简单说到这里,下面再次提供几个链接供大家参考学习:http://m.blog.itpub.net/31555699/viewspace-2653832/https://www.jianshu.com/p/61e6c34d0704


相关文章
|
9天前
|
机器学习/深度学习 存储 设计模式
Python 高级编程与实战:深入理解性能优化与调试技巧
本文深入探讨了Python的性能优化与调试技巧,涵盖profiling、caching、Cython等优化工具,以及pdb、logging、assert等调试方法。通过实战项目,如优化斐波那契数列计算和调试Web应用,帮助读者掌握这些技术,提升编程效率。附有进一步学习资源,助力读者深入学习。
|
9天前
|
机器学习/深度学习 数据可视化 TensorFlow
Python 高级编程与实战:深入理解数据科学与机器学习
本文深入探讨了Python在数据科学与机器学习中的应用,介绍了pandas、numpy、matplotlib等数据科学工具,以及scikit-learn、tensorflow、keras等机器学习库。通过实战项目,如数据可视化和鸢尾花数据集分类,帮助读者掌握这些技术。最后提供了进一步学习资源,助力提升Python编程技能。
|
9天前
|
设计模式 机器学习/深度学习 前端开发
Python 高级编程与实战:深入理解设计模式与软件架构
本文深入探讨了Python中的设计模式与软件架构,涵盖单例、工厂、观察者模式及MVC、微服务架构,并通过实战项目如插件系统和Web应用帮助读者掌握这些技术。文章提供了代码示例,便于理解和实践。最后推荐了进一步学习的资源,助力提升Python编程技能。
|
8天前
|
数据采集 XML 存储
Python爬虫实战:一键采集电商数据,掌握市场动态!
这个爬虫还挺实用,不光能爬电商数据,改改解析规则,啥数据都能爬。写爬虫最重要的是要有耐心,遇到问题别着急,慢慢调试就成。代码写好了,运行起来那叫一个爽,分分钟几千条数据到手。
|
8天前
|
机器学习/深度学习 设计模式 API
Python 高级编程与实战:构建 RESTful API
本文深入探讨了使用 Python 构建 RESTful API 的方法,涵盖 Flask、Django REST Framework 和 FastAPI 三个主流框架。通过实战项目示例,详细讲解了如何处理 GET、POST 请求,并返回相应数据。学习这些技术将帮助你掌握构建高效、可靠的 Web API。
|
8天前
|
机器学习/深度学习 设计模式 测试技术
Python 高级编程与实战:构建自动化测试框架
本文深入探讨了Python中的自动化测试框架,包括unittest、pytest和nose2,并通过实战项目帮助读者掌握这些技术。文中详细介绍了各框架的基本用法和示例代码,助力开发者快速验证代码正确性,减少手动测试工作量。学习资源推荐包括Python官方文档及Real Python等网站。
|
8天前
|
存储 监控 API
1688平台API接口实战:Python实现店铺全量商品数据抓取
本文介绍如何使用Python通过1688开放平台的API接口自动化抓取店铺所有商品数据。首先,开发者需在1688开放平台完成注册并获取App Key和App Secret,申请“商品信息查询”权限。接着,利用`alibaba.trade.product.search4trade`接口,构建请求参数、生成MD5签名,并通过分页机制获取全量商品数据。文中详细解析了响应结构、存储优化及常见问题处理方法,还提供了竞品监控、库存预警等应用场景示例和完整代码。
|
11天前
|
机器学习/深度学习 分布式计算 API
Python 高级编程与实战:深入理解并发编程与分布式系统
在前几篇文章中,我们探讨了 Python 的基础语法、面向对象编程、函数式编程、元编程、性能优化、调试技巧、数据科学、机器学习、Web 开发、API 设计、网络编程和异步IO。本文将深入探讨 Python 在并发编程和分布式系统中的应用,并通过实战项目帮助你掌握这些技术。
|
8天前
|
机器学习/深度学习 设计模式 API
Python 高级编程与实战:构建微服务架构
本文深入探讨了 Python 中的微服务架构,介绍了 Flask、FastAPI 和 Nameko 三个常用框架,并通过实战项目帮助读者掌握这些技术。每个框架都提供了构建微服务的示例代码,包括简单的 API 接口实现。通过学习本文,读者将能够使用 Python 构建高效、独立的微服务。
|
8天前
|
消息中间件 分布式计算 并行计算
Python 高级编程与实战:构建分布式系统
本文深入探讨了 Python 中的分布式系统,介绍了 ZeroMQ、Celery 和 Dask 等工具的使用方法,并通过实战项目帮助读者掌握这些技术。ZeroMQ 是高性能异步消息库,支持多种通信模式;Celery 是分布式任务队列,支持异步任务执行;Dask 是并行计算库,适用于大规模数据处理。文章结合具体代码示例,帮助读者理解如何使用这些工具构建分布式系统。