《 营销数据科学: 用R和Python进行预测分析的建模技术》——第2章 预测消费者的选择

简介: 本节书摘来自华章出版社《营销数据科学:用R和Python进行预测分析的建模技术》一书中的第2章,作者:[美] 托马斯 W. 米勒(Thomas W. Miller) 著 崔立真 鹿旭东 译,更多章节内容可以访问云栖社区“华章计算机”公众号查看。

本节书摘来自华章出版社《营销数据科学:用R和Python进行预测分析的建模技术》一书中的第2章,作者:[美] 托马斯 W. 米勒(Thomas W. Miller) 著 崔立真 鹿旭东 译,更多章节内容可以访问云栖社区“华章计算机”公众号查看。

第2章 预测消费者的选择

“我们是何种人并不由我们的能力决定,这是我们的选择。”
—2002年美国电影《哈利波特与密室》中
阿尔布斯•邓宝多尔教授(理查德•哈里斯饰)

我把自己人生中的很多时间用于工作,这是我的选择。在准备分析用的数据或在网络上工作时,我会使用Python编程语言。在进行建模或绘图时,我经常使用R编程语言。生活中还有更多选择,比如,当我完成了电脑程序设计、写作和教学时,我会去赫莫萨海滩—这也是我的偏好和选择。
消费者的选择是生活的一部分,也是营销数据科学的基础。如果足够幸运,我们可以选择居住地点,选择是租一间公寓还是买一套房子。我们还可以选择自己的工作、同事、朋友和爱人;选择节食和运动、健康和美体;从早餐吃麦片到出门坐汽车—这些无一不是各种选择的更替。我们所做出的许多选择其实别人是知道的,我们的生活记录就存储在各个公司的数据库里。
为了预测消费者的选择,我们使用了营销组合中的解释变量,比如产品的特点、广告和促销,或者是分销渠道的类型。我们记录了消费者的特点、可观察的行为、调查反馈和人口数据。我们还建立了经济学的离散选择模型和统计学的广义线型模型。二者均为营销数据科学的重要工具。
为了演示选择方法,我们先从附录C中的悉尼交通研究开始。悉尼的出行者可以选择坐汽车或坐火车进城。这个回答是二元的,所以我们可以应用逻辑斯谛回归,即带有分对数连接的广义线性模型。分对数是比值比中的自然对数。
分对数
选择火车而不是汽车的比值是由一个出行者选择火车的概率p (TRAIN)除以该出行者选择汽车的概率p (CAR)而得出的。我们假设两个概率都是正的,介于0与1之间的开区间,则这个比值比也是正的,介于0与无穷大之间的开区间。
0<p (TRAIN)<1
0<p (CAR)<1
1

分对数或比值比的对数是一个将正数集映射到所有实数集上的对数。这是对数所要进行的工作。
2

使用分对数,我们可以写出等式,用解释变量的线性组合来连接各种选择(或确切地说,选择的概率)。这就是分对数的逻辑(或者不妨说是分对数的魔力)。在广义线性模型中我们把分对数称为连接函数。关于逻辑斯谛回归的补充讨论请参见附录A。
在悉尼交通研究中,我们已知乘坐汽车和乘坐火车需要的时间和成本。这些就是本案例中的解释变量。图2-1中的矩阵散点图和图2-2中的相关热点图显示了这些解释变量间的配对关系。
tu2_1
biao2_1

biao2_2

这个模型对训练数据产生的作用如何?基于出行者对汽车或火车的实际选择而生成的密度晶格反映了预测的正确程度。参见图2-3。tu2_3

为了预测每一位出行者对汽车或火车的选择,我们设定了一个预测概率的临界值。假设以临界值0.50来划分出行者,也就是说,如果坐火车的预测概率大于0.50,我们就可以预测出行者会坐火车。反之,我们将预测出行者会乘坐汽车。由此产生的四格表或混淆矩阵可以反映出我们预测的正确率为82.6%。有很多方式可以评估对某个分类进行预测的精度,比如说逻辑斯谛回归。这些会在附录A中进行回顾。
好的数据科学不仅仅是建立等式的问题,也不仅仅是关于数学和统计学的内容。好的数据科学取决于对商务问题的理解。
时间和地点变量是交通方式选择模型中的解释变量,但公共管理者对时间和地点变量几乎无法控制。时间和地点变量代表的是控制变量而不是决策变量。成本变量则有可能成为决策变量,因为在一定程度上成本变量是可以被控制的。
虽然公共管理者在汽油商品市场上几乎没有什么话语权,但他们可以通过向汽油征税来影响乘坐汽车出行的成本。更为重要的是,公共管理者也可以通过控制公共交通工具的票价来影响乘坐火车出行的成本。
在悉尼交通研究中,333位出行者中有150位(45%)选择火车作为出行方式。假设公共管理者计划增加10%的公共交通工具使用量,那么在保持所有其他变量不变的情况下,火车票价要下降多少才能实现这一目标?我们可以使用相应的逻辑斯谛回归模型来回答这个问题。
图2-4为公共管理者提供了一个比较方便的总结。为了制作这个图表,我们通过设定为平均值来控制乘坐汽车时间、乘坐汽车成本和乘坐火车时间这几个变量。然后让乘坐火车成本进行一系列变化,观察其对估计的乘坐火车的概率所产生的影响。从模型中进行的显式计算可以看出,如果火车票价下降5美分(澳元)的话,悉尼出行者中的183人(55%)会选择乘坐火车。
逻辑斯谛回归是一个广义线性模型。顾名思义,广义线性模型是对经典线性回归模型的归纳和总结。关于广义线性模型的标准参考见McCullagh、Nelder(1989)。Firth(1991)也对相关的理论进行了补充修订。Hastie(1992)与Venables、Ripley(2002)给出了与R编程语言相关的建模范例。Lindsey(1997)讨论了各种应用范例。关于逻辑斯谛回归和广义线性模型,请参见附录A中的补充讨论。
tu2_4

有不少很好的资源可以用来帮助理解经济学和市场调查中的离散选择建模。入门性的材料可在经济学的教材中找到,比如Pindyck、Rubinfeld(2012)及Greene(2012)。关于更高级的讨论,可参阅Ben-Akiva、Lerman(1985)。Louviere、Hensher、Swait(2000)给出了交通和市场调查的范例。Train(2003)则提供了离散选择建模和估计方法的综述。
Wassertheil-Smoller(1990)提供了关于逻辑斯谛回归过程的基础性知识以及二进制分类的评价方法。关于更高级的处理方式,可参阅Hand(1997)。Burnham、Anderson(2002)回顾了模型选择的方法,特别是那些使用了Akaike信息标准或称为AIC准则(Akaike,1973)的方法。
正如我们在本书所有实际案例中所看到的,通过分析消费者所做的选择—在市场所做的选择、在营销活动中作为回应所做出的选择以及作为消费者问卷调查(如联合调查)的回应所产生的选择,我们可以回答许多管理上的问题。我们通常使用逻辑斯谛回归和多项式分对数模型来分析所选择的数据。
例证2-1显示了用于分析悉尼交通研究数据的R程序,它采用了Sarkar(2008,2014)所述的晶格绘图工具。与之对应的Python程序如例证2-2所示。
例证2-1 预测交通工具的选择(R)
li2_1_1
li2_1_2
li2_1_3
li2_1_4
li2_1_5

例证2-2 预测交通工具的选择(Python)
li2_2
li2_2_2

相关文章
|
7月前
|
存储 监控 API
Python实战:跨平台电商数据聚合系统的技术实现
本文介绍如何通过标准化API调用协议,实现淘宝、京东、拼多多等电商平台的商品数据自动化采集、清洗与存储。内容涵盖技术架构设计、Python代码示例及高阶应用(如价格监控系统),提供可直接落地的技术方案,帮助开发者解决多平台数据同步难题。
|
9月前
|
JSON API 开发者
天猫商品详情API接口技术解析与Python实现
天猫商品详情API(tmall.item_get)通过商品ID获取商品标题、价格、库存、图片、SKU及评价等详细信息,支持HTTP请求与JSON格式返回,适用于电商数据分析与运营。本文提供Python调用示例,实现快速接入与数据解析。
|
6月前
|
数据可视化 大数据 关系型数据库
基于python大数据技术的医疗数据分析与研究
在数字化时代,医疗数据呈爆炸式增长,涵盖患者信息、检查指标、生活方式等。大数据技术助力疾病预测、资源优化与智慧医疗发展,结合Python、MySQL与B/S架构,推动医疗系统高效实现。
|
7月前
|
数据采集 存储 XML
Python爬虫技术:从基础到实战的完整教程
最后强调: 父母法律法规限制下进行网络抓取活动; 不得侵犯他人版权隐私利益; 同时也要注意个人安全防止泄露敏感信息.
991 19
|
10月前
|
监控 大数据 API
Python 技术员实践指南:从项目落地到技术优化
本内容涵盖Python开发的实战项目、技术攻关与工程化实践,包括自动化脚本(日志分析系统)和Web后端(轻量化API服务)两大项目类型。通过使用正则表达式、Flask框架等技术,解决日志分析效率低与API服务性能优化等问题。同时深入探讨内存泄漏排查、CPU瓶颈优化,并提供团队协作规范与代码审查流程。延伸至AI、大数据及DevOps领域,如商品推荐系统、PySpark数据处理和Airflow任务编排,助力开发者全面提升从编码到架构的能力,积累高并发与大数据场景下的实战经验。
Python 技术员实践指南:从项目落地到技术优化
|
搜索推荐 数据挖掘 数据安全/隐私保护
频率派与贝叶斯统计在营销组合建模中的应用比较:隐私优先时代的方法选择
营销组合建模(MMM)是量化营销渠道贡献的核心工具,在数字营销进入隐私优先时代后焕发新生。文章探讨了频率派与贝叶斯统计学在MMM中的应用,前者实现简单、结果直观,适合数据充足场景;后者能整合先验知识、量化不确定性,适应复杂和数据稀缺情况。两者各有优劣,选择需结合业务需求与数据条件。贝叶斯方法在隐私保护趋势下尤为重要,为未来营销分析提供新思路。
354 47
频率派与贝叶斯统计在营销组合建模中的应用比较:隐私优先时代的方法选择
|
9月前
|
机器学习/深度学习 数据安全/隐私保护 计算机视觉
过三色刷脸技术,过三色刷脸技术教程,插件过人脸python分享学习
三色刷脸技术是基于RGB三通道分离的人脸特征提取方法,通过分析人脸在不同颜色通道的特征差异
|
8月前
|
数据采集 机器学习/深度学习 数据可视化
Python量化交易:结合爬虫与TA-Lib技术指标分析
Python量化交易:结合爬虫与TA-Lib技术指标分析
|
9月前
|
机器学习/深度学习 算法 API
淘宝图片搜索接口技术解析与Python实现
淘宝图片搜索接口(拍立淘)基于图像识别技术,允许用户上传商品图片查找相似或相同商品。自2014年上线以来,已服务数千万日活用户,显著提升购物体验。接口通过CNN、ANN等技术实现图像预处理、特征提取与相似度匹配,支持多种调用方式与参数设置。本文提供Python调用示例,便于开发者快速集成。
|
9月前
|
传感器 算法 数据挖掘
Python时间序列平滑技术完全指南:6种主流方法原理与实战应用
时间序列数据分析中,噪声干扰普遍存在,影响趋势提取。本文系统解析六种常用平滑技术——移动平均、EMA、Savitzky-Golay滤波器、LOESS回归、高斯滤波与卡尔曼滤波,从原理、参数配置、适用场景及优缺点多角度对比,并引入RPR指标量化平滑效果,助力方法选择与优化。
2076 0

推荐镜像

更多