《 营销数据科学: 用R和Python进行预测分析的建模技术》——第2章 预测消费者的选择

简介: 本节书摘来自华章出版社《营销数据科学:用R和Python进行预测分析的建模技术》一书中的第2章,作者:[美] 托马斯 W. 米勒(Thomas W. Miller) 著 崔立真 鹿旭东 译,更多章节内容可以访问云栖社区“华章计算机”公众号查看。

本节书摘来自华章出版社《营销数据科学:用R和Python进行预测分析的建模技术》一书中的第2章,作者:[美] 托马斯 W. 米勒(Thomas W. Miller) 著 崔立真 鹿旭东 译,更多章节内容可以访问云栖社区“华章计算机”公众号查看。

第2章 预测消费者的选择

“我们是何种人并不由我们的能力决定,这是我们的选择。”
—2002年美国电影《哈利波特与密室》中
阿尔布斯•邓宝多尔教授(理查德•哈里斯饰)

我把自己人生中的很多时间用于工作,这是我的选择。在准备分析用的数据或在网络上工作时,我会使用Python编程语言。在进行建模或绘图时,我经常使用R编程语言。生活中还有更多选择,比如,当我完成了电脑程序设计、写作和教学时,我会去赫莫萨海滩—这也是我的偏好和选择。
消费者的选择是生活的一部分,也是营销数据科学的基础。如果足够幸运,我们可以选择居住地点,选择是租一间公寓还是买一套房子。我们还可以选择自己的工作、同事、朋友和爱人;选择节食和运动、健康和美体;从早餐吃麦片到出门坐汽车—这些无一不是各种选择的更替。我们所做出的许多选择其实别人是知道的,我们的生活记录就存储在各个公司的数据库里。
为了预测消费者的选择,我们使用了营销组合中的解释变量,比如产品的特点、广告和促销,或者是分销渠道的类型。我们记录了消费者的特点、可观察的行为、调查反馈和人口数据。我们还建立了经济学的离散选择模型和统计学的广义线型模型。二者均为营销数据科学的重要工具。
为了演示选择方法,我们先从附录C中的悉尼交通研究开始。悉尼的出行者可以选择坐汽车或坐火车进城。这个回答是二元的,所以我们可以应用逻辑斯谛回归,即带有分对数连接的广义线性模型。分对数是比值比中的自然对数。
分对数
选择火车而不是汽车的比值是由一个出行者选择火车的概率p (TRAIN)除以该出行者选择汽车的概率p (CAR)而得出的。我们假设两个概率都是正的,介于0与1之间的开区间,则这个比值比也是正的,介于0与无穷大之间的开区间。
0<p (TRAIN)<1
0<p (CAR)<1
1

分对数或比值比的对数是一个将正数集映射到所有实数集上的对数。这是对数所要进行的工作。
2

使用分对数,我们可以写出等式,用解释变量的线性组合来连接各种选择(或确切地说,选择的概率)。这就是分对数的逻辑(或者不妨说是分对数的魔力)。在广义线性模型中我们把分对数称为连接函数。关于逻辑斯谛回归的补充讨论请参见附录A。
在悉尼交通研究中,我们已知乘坐汽车和乘坐火车需要的时间和成本。这些就是本案例中的解释变量。图2-1中的矩阵散点图和图2-2中的相关热点图显示了这些解释变量间的配对关系。
tu2_1
biao2_1

biao2_2

这个模型对训练数据产生的作用如何?基于出行者对汽车或火车的实际选择而生成的密度晶格反映了预测的正确程度。参见图2-3。tu2_3

为了预测每一位出行者对汽车或火车的选择,我们设定了一个预测概率的临界值。假设以临界值0.50来划分出行者,也就是说,如果坐火车的预测概率大于0.50,我们就可以预测出行者会坐火车。反之,我们将预测出行者会乘坐汽车。由此产生的四格表或混淆矩阵可以反映出我们预测的正确率为82.6%。有很多方式可以评估对某个分类进行预测的精度,比如说逻辑斯谛回归。这些会在附录A中进行回顾。
好的数据科学不仅仅是建立等式的问题,也不仅仅是关于数学和统计学的内容。好的数据科学取决于对商务问题的理解。
时间和地点变量是交通方式选择模型中的解释变量,但公共管理者对时间和地点变量几乎无法控制。时间和地点变量代表的是控制变量而不是决策变量。成本变量则有可能成为决策变量,因为在一定程度上成本变量是可以被控制的。
虽然公共管理者在汽油商品市场上几乎没有什么话语权,但他们可以通过向汽油征税来影响乘坐汽车出行的成本。更为重要的是,公共管理者也可以通过控制公共交通工具的票价来影响乘坐火车出行的成本。
在悉尼交通研究中,333位出行者中有150位(45%)选择火车作为出行方式。假设公共管理者计划增加10%的公共交通工具使用量,那么在保持所有其他变量不变的情况下,火车票价要下降多少才能实现这一目标?我们可以使用相应的逻辑斯谛回归模型来回答这个问题。
图2-4为公共管理者提供了一个比较方便的总结。为了制作这个图表,我们通过设定为平均值来控制乘坐汽车时间、乘坐汽车成本和乘坐火车时间这几个变量。然后让乘坐火车成本进行一系列变化,观察其对估计的乘坐火车的概率所产生的影响。从模型中进行的显式计算可以看出,如果火车票价下降5美分(澳元)的话,悉尼出行者中的183人(55%)会选择乘坐火车。
逻辑斯谛回归是一个广义线性模型。顾名思义,广义线性模型是对经典线性回归模型的归纳和总结。关于广义线性模型的标准参考见McCullagh、Nelder(1989)。Firth(1991)也对相关的理论进行了补充修订。Hastie(1992)与Venables、Ripley(2002)给出了与R编程语言相关的建模范例。Lindsey(1997)讨论了各种应用范例。关于逻辑斯谛回归和广义线性模型,请参见附录A中的补充讨论。
tu2_4

有不少很好的资源可以用来帮助理解经济学和市场调查中的离散选择建模。入门性的材料可在经济学的教材中找到,比如Pindyck、Rubinfeld(2012)及Greene(2012)。关于更高级的讨论,可参阅Ben-Akiva、Lerman(1985)。Louviere、Hensher、Swait(2000)给出了交通和市场调查的范例。Train(2003)则提供了离散选择建模和估计方法的综述。
Wassertheil-Smoller(1990)提供了关于逻辑斯谛回归过程的基础性知识以及二进制分类的评价方法。关于更高级的处理方式,可参阅Hand(1997)。Burnham、Anderson(2002)回顾了模型选择的方法,特别是那些使用了Akaike信息标准或称为AIC准则(Akaike,1973)的方法。
正如我们在本书所有实际案例中所看到的,通过分析消费者所做的选择—在市场所做的选择、在营销活动中作为回应所做出的选择以及作为消费者问卷调查(如联合调查)的回应所产生的选择,我们可以回答许多管理上的问题。我们通常使用逻辑斯谛回归和多项式分对数模型来分析所选择的数据。
例证2-1显示了用于分析悉尼交通研究数据的R程序,它采用了Sarkar(2008,2014)所述的晶格绘图工具。与之对应的Python程序如例证2-2所示。
例证2-1 预测交通工具的选择(R)
li2_1_1
li2_1_2
li2_1_3
li2_1_4
li2_1_5

例证2-2 预测交通工具的选择(Python)
li2_2
li2_2_2

相关文章
|
24天前
|
机器学习/深度学习 数据可视化 数据处理
从基础到进阶:探索Python在数据科学中的应用
【10月更文挑战第18天】从基础到进阶:探索Python在数据科学中的应用
37 1
|
1月前
|
机器学习/深度学习 数据采集 数据可视化
Python 数据分析:从零开始构建你的数据科学项目
【10月更文挑战第9天】Python 数据分析:从零开始构建你的数据科学项目
53 2
|
6天前
|
机器学习/深度学习 数据采集 数据可视化
Python在数据科学中的应用:从入门到实践
本文旨在为读者提供一个Python在数据科学领域应用的全面概览。我们将从Python的基础语法开始,逐步深入到数据处理、分析和可视化的高级技术。文章不仅涵盖了Python中常用的数据科学库,如NumPy、Pandas和Matplotlib,还探讨了机器学习库Scikit-learn的使用。通过实际案例分析,本文将展示如何利用Python进行数据清洗、特征工程、模型训练和结果评估。此外,我们还将探讨Python在大数据处理中的应用,以及如何通过集成学习和深度学习技术来提升数据分析的准确性和效率。
|
7天前
|
机器学习/深度学习 数据可视化 数据处理
Python数据科学:从基础到实战
Python数据科学:从基础到实战
13 1
|
9天前
|
算法 Python
Python图论探索:从理论到实践,DFS与BFS遍历技巧让你秒变技术大牛
图论在数据结构与算法中占据重要地位,应用广泛。本文通过Python代码实现深度优先搜索(DFS)和广度优先搜索(BFS),帮助读者掌握图的遍历技巧。DFS沿路径深入搜索,BFS逐层向外扩展,两者各具优势。掌握这些技巧,为解决复杂问题打下坚实基础。
21 2
|
11天前
|
开发框架 开发者 Python
探索Python中的装饰器:技术感悟与实践
【10月更文挑战第31天】 在编程世界中,装饰器是Python中一种强大的工具,它允许我们在不修改函数代码的情况下增强函数的功能。本文将通过浅显易懂的方式,带你了解装饰器的概念、实现原理及其在实际开发中的应用。我们将一起探索如何利用装饰器简化代码、提高可读性和复用性,同时也会分享一些个人的技术感悟,帮助你更好地掌握这项技术。
28 2
|
1月前
|
机器学习/深度学习 数据采集 数据挖掘
特征工程在营销组合建模中的应用:基于因果推断的机器学习方法优化渠道效应估计
因果推断方法为特征工程提供了一个更深层次的框架,使我们能够区分真正的因果关系和简单的统计相关性。这种方法在需要理解干预效果的领域尤为重要,如经济学、医学和市场营销。
57 1
特征工程在营销组合建模中的应用:基于因果推断的机器学习方法优化渠道效应估计
|
17天前
|
机器学习/深度学习 数据可视化 数据处理
Python在数据科学中的应用###
本文探讨了Python语言在数据科学领域的广泛应用及其重要性。通过分析Python的简洁语法、强大的库支持和跨平台特性,阐述了为何Python成为数据科学家的首选工具。文章还介绍了Python在数据处理、分析和可视化方面的具体应用实例,展示了其在提升工作效率和推动科学研究方面的巨大潜力。最后,讨论了未来Python在数据科学领域的发展趋势和挑战。 ###
|
15天前
|
数据采集 Web App开发 iOS开发
如何利用 Python 的爬虫技术获取淘宝天猫商品的价格信息?
本文介绍了使用 Python 爬虫技术获取淘宝天猫商品价格信息的两种方法。方法一使用 Selenium 模拟浏览器操作,通过定位页面元素获取价格;方法二使用 Requests 和正则表达式直接请求页面内容并提取价格。每种方法都有详细步骤和代码示例,但需注意反爬措施和法律法规。
|
16天前
|
数据采集 存储 Web App开发
利用Python 的爬虫技术淘宝天猫销量和库存
使用 Python 爬虫技术获取淘宝天猫商品销量和库存的步骤包括:1. 安装 Python 和相关库(如 selenium、pandas),下载浏览器驱动;2. 使用 selenium 登录淘宝或天猫;3. 访问商品页面,分析网页结构,提取销量和库存信息;4. 处理和存储数据。注意网页结构可能变化,需遵守法律法规。