本节书摘来自华章出版社《营销数据科学:用R和Python进行预测分析的建模技术》一书中的第2章,作者:[美] 托马斯 W. 米勒(Thomas W. Miller) 著 崔立真 鹿旭东 译,更多章节内容可以访问云栖社区“华章计算机”公众号查看。
第2章 预测消费者的选择
“我们是何种人并不由我们的能力决定,这是我们的选择。”
—2002年美国电影《哈利波特与密室》中
阿尔布斯•邓宝多尔教授(理查德•哈里斯饰)
我把自己人生中的很多时间用于工作,这是我的选择。在准备分析用的数据或在网络上工作时,我会使用Python编程语言。在进行建模或绘图时,我经常使用R编程语言。生活中还有更多选择,比如,当我完成了电脑程序设计、写作和教学时,我会去赫莫萨海滩—这也是我的偏好和选择。
消费者的选择是生活的一部分,也是营销数据科学的基础。如果足够幸运,我们可以选择居住地点,选择是租一间公寓还是买一套房子。我们还可以选择自己的工作、同事、朋友和爱人;选择节食和运动、健康和美体;从早餐吃麦片到出门坐汽车—这些无一不是各种选择的更替。我们所做出的许多选择其实别人是知道的,我们的生活记录就存储在各个公司的数据库里。
为了预测消费者的选择,我们使用了营销组合中的解释变量,比如产品的特点、广告和促销,或者是分销渠道的类型。我们记录了消费者的特点、可观察的行为、调查反馈和人口数据。我们还建立了经济学的离散选择模型和统计学的广义线型模型。二者均为营销数据科学的重要工具。
为了演示选择方法,我们先从附录C中的悉尼交通研究开始。悉尼的出行者可以选择坐汽车或坐火车进城。这个回答是二元的,所以我们可以应用逻辑斯谛回归,即带有分对数连接的广义线性模型。分对数是比值比中的自然对数。
分对数
选择火车而不是汽车的比值是由一个出行者选择火车的概率p (TRAIN)除以该出行者选择汽车的概率p (CAR)而得出的。我们假设两个概率都是正的,介于0与1之间的开区间,则这个比值比也是正的,介于0与无穷大之间的开区间。
0<p (TRAIN)<1
0<p (CAR)<1
分对数或比值比的对数是一个将正数集映射到所有实数集上的对数。这是对数所要进行的工作。
使用分对数,我们可以写出等式,用解释变量的线性组合来连接各种选择(或确切地说,选择的概率)。这就是分对数的逻辑(或者不妨说是分对数的魔力)。在广义线性模型中我们把分对数称为连接函数。关于逻辑斯谛回归的补充讨论请参见附录A。
在悉尼交通研究中,我们已知乘坐汽车和乘坐火车需要的时间和成本。这些就是本案例中的解释变量。图2-1中的矩阵散点图和图2-2中的相关热点图显示了这些解释变量间的配对关系。
这个模型对训练数据产生的作用如何?基于出行者对汽车或火车的实际选择而生成的密度晶格反映了预测的正确程度。参见图2-3。
为了预测每一位出行者对汽车或火车的选择,我们设定了一个预测概率的临界值。假设以临界值0.50来划分出行者,也就是说,如果坐火车的预测概率大于0.50,我们就可以预测出行者会坐火车。反之,我们将预测出行者会乘坐汽车。由此产生的四格表或混淆矩阵可以反映出我们预测的正确率为82.6%。有很多方式可以评估对某个分类进行预测的精度,比如说逻辑斯谛回归。这些会在附录A中进行回顾。
好的数据科学不仅仅是建立等式的问题,也不仅仅是关于数学和统计学的内容。好的数据科学取决于对商务问题的理解。
时间和地点变量是交通方式选择模型中的解释变量,但公共管理者对时间和地点变量几乎无法控制。时间和地点变量代表的是控制变量而不是决策变量。成本变量则有可能成为决策变量,因为在一定程度上成本变量是可以被控制的。
虽然公共管理者在汽油商品市场上几乎没有什么话语权,但他们可以通过向汽油征税来影响乘坐汽车出行的成本。更为重要的是,公共管理者也可以通过控制公共交通工具的票价来影响乘坐火车出行的成本。
在悉尼交通研究中,333位出行者中有150位(45%)选择火车作为出行方式。假设公共管理者计划增加10%的公共交通工具使用量,那么在保持所有其他变量不变的情况下,火车票价要下降多少才能实现这一目标?我们可以使用相应的逻辑斯谛回归模型来回答这个问题。
图2-4为公共管理者提供了一个比较方便的总结。为了制作这个图表,我们通过设定为平均值来控制乘坐汽车时间、乘坐汽车成本和乘坐火车时间这几个变量。然后让乘坐火车成本进行一系列变化,观察其对估计的乘坐火车的概率所产生的影响。从模型中进行的显式计算可以看出,如果火车票价下降5美分(澳元)的话,悉尼出行者中的183人(55%)会选择乘坐火车。
逻辑斯谛回归是一个广义线性模型。顾名思义,广义线性模型是对经典线性回归模型的归纳和总结。关于广义线性模型的标准参考见McCullagh、Nelder(1989)。Firth(1991)也对相关的理论进行了补充修订。Hastie(1992)与Venables、Ripley(2002)给出了与R编程语言相关的建模范例。Lindsey(1997)讨论了各种应用范例。关于逻辑斯谛回归和广义线性模型,请参见附录A中的补充讨论。
有不少很好的资源可以用来帮助理解经济学和市场调查中的离散选择建模。入门性的材料可在经济学的教材中找到,比如Pindyck、Rubinfeld(2012)及Greene(2012)。关于更高级的讨论,可参阅Ben-Akiva、Lerman(1985)。Louviere、Hensher、Swait(2000)给出了交通和市场调查的范例。Train(2003)则提供了离散选择建模和估计方法的综述。
Wassertheil-Smoller(1990)提供了关于逻辑斯谛回归过程的基础性知识以及二进制分类的评价方法。关于更高级的处理方式,可参阅Hand(1997)。Burnham、Anderson(2002)回顾了模型选择的方法,特别是那些使用了Akaike信息标准或称为AIC准则(Akaike,1973)的方法。
正如我们在本书所有实际案例中所看到的,通过分析消费者所做的选择—在市场所做的选择、在营销活动中作为回应所做出的选择以及作为消费者问卷调查(如联合调查)的回应所产生的选择,我们可以回答许多管理上的问题。我们通常使用逻辑斯谛回归和多项式分对数模型来分析所选择的数据。
例证2-1显示了用于分析悉尼交通研究数据的R程序,它采用了Sarkar(2008,2014)所述的晶格绘图工具。与之对应的Python程序如例证2-2所示。
例证2-1 预测交通工具的选择(R)
例证2-2 预测交通工具的选择(Python)