《营销数据科学：用R和Python进行预测分析的建模技术》——第3章锁定目标客户-阿里云开发者社区

本节书摘来自华章出版社《营销数据科学：用R和Python进行预测分析的建模技术》一书中的第3章，作者：[美]　托马斯 W. 米勒（Thomas W. Miller）　著崔立真　鹿旭东　译，更多章节内容可以访问云栖社区“华章计算机”公众号查看。

第3章锁定目标客户

“听着，我—我很欣赏您所安排的这整个充满吸引力的场景。但是，请注意：我是一个务实的人。好吗？”
—1990年美国电影《风月俏佳人》中薇薇安•沃德（茱莉亚•罗伯茨饰）

大众营销将所有客户作为一个小组进行营销，一对一营销则一次集中对一个客户进行营销，对选定客户组或细分市场进行的目标营销便介于大众营销和一对一营销之间。目标营销将营销活动锁定于最具购买潜力的客户身上。
锁定目标意味着选择，即甄别比其他客户更具价值的客户并给予特别关注。目标锁定技能变得熟练后，公司可以提高其盈利能力、增加收入并降低成本。
锁定目标方面做得最好的公司是那些为每个客户做了详细记录的公司。这些公司要么实施忠诚度计划，要么使用客户关系管理系统，将各个单个客户的销售交易与具体客户相关联并存储在客户数据库中。在了解了收入（现金流入）和成本（现金流出）后，我们就可以进行DCF（现金流量折现法）分析并计算针对每个客户的投资回报。
目标即值得追踪的客户，也就是有利可图的客户—目标所产生的销售收入超过销售和支持成本。换言之，目标即具有正向终身价值的客户。在公司与目标客户的关系中，公司业务的流入资金超过业务支出的资金。
管理者希望预测客户对促销活动和价格变化的反应，希望预测消费者将在何时何地购买产品，并希望确定哪些是能够帮助公司实现销售收入超过销售和支持成本的优质客户。
对于从事直接营销的公司而言，成本也可能与各个单个客户相关联。这些成本包括邮寄费、电话费以及其他直接营销活动产生的成本。而对于从事非直接营销的公司或未对单个客户进行成本记录的公司而言，则采用一般成本估算对客户的终身价值进行估算。
在目标营销中，需要识别有用的因素并确定如何在建模技术中使用这些因素。我们所要预测的就是响应变量，如销售价格、成交量或者客户是否会购买产品。客户终身价值是一个综合响应变量，它的计算基于与每个客户的多次交易，而这些交易包含了销售和成本观测结果。
用解释变量来预测响应变量。解释变量可以是连续型（含意义性量值）或分类型（不含意义性量值）。统计模型显示了解释变量与响应变量之间的关系。
在企业对消费者的目标营销中，常用的解释变量包括人口统计数据、行为习惯和生活方式变量。而在企业对企业的目标营销中，常用的解释变量包括企业规模、行业领域以及地理位置。在目标营销中，无论是企业对消费者还是企业对企业，解释变量都可以源自我们了解到的有关客户的任何事物，包括以往与客户发生的销售和支持历史记录。
目标营销中用到的两种预测模型是回归和分类。当响应变量（待预测变量）为连续型变量或者含意义性量值时，我们使用回归分析进行预测。含意义性量值的响应变量主要包括销售价格、销售数量、销售成本、支持成本以及客户终身价值。
当响应变量为分类型变量（不含意义性量值的变量）时，我们使用分类分析进行预测。不含意义性量值的响应变量主要包括客户是否购买、客户是坚持从本公司购买还是会从其他公司购买、客户是否会向其他客户推荐公司产品。
为了实现目标营销的利益（目的），我们需要知道如何有效地锁定目标客户。关于这一点，有许多可供选择的技巧，而我们希望能够找到对公司、对我们正努力解决的营销问题最为有效的目标锁定技巧。
在所有其他条件均等的情况下，销售团队首先应该接洽的是那些能够实现最高预测销售额的客户。或者，我们可以为预测销售额设定一个截止点，在截止点之上的客户就是需要进行业务联系的客户—目标客户，而在截止点之下的客户则不用联系。
当使用上一年度数据对回归模型进行评估时，我们可以判断预测的销售额与实际/观测到的销售额之间的差距。可以计算出残差（观测销售额减去预测销售额）的绝对价值总额或者残差平方和。
另一回归模型评估方法是关联观测到的和预测的响应值。或者，更好的做法是，可以计算出观测到的响应值与预测的响应值之间的平方相关性。这一最终标准评估方法被称为判定系数，它显示线性回归模型所占的响应方差比例。判定系数是一个在0和1之间变化的数字，当数字等于1时，表示预测非常完美。
如果我们绘制图表，用水平轴表示观测到的销售额，用垂直轴表示预测的销售额，那么，观测到的销售额与预测的销售额之间的判定系数越高，图表中的各点的间隔就越近，并沿直线下降。当各点完全沿直线下降时，平方相关性等于1，回归模型提供的销售额预测为完美预测，这就是说，模型所预测的销售响应比例达到100%。当建立回归模型时，我们试图预测出值较高的销售响应比例。在所有其他项目均等的情况下，首选判定系数较高者。
重心可放在预测销售额上或者预测销售成本、支持成本、盈利能力或总体客户终身价值上。用回归分析方法进行目标营销时，有很多种回归模型可供使用。
在为锁定目标开发分类模型时，我们所采用的方式大致与回归模型相同，除了响应变量为一个类别或等级外。例如，逻辑斯谛回归模型会为每个客户提供一个预测的响应概率。我们为响应概率设定一个截止点并对响应进行相应分级。例如，如果截止点被设定为0.50，那么，如果客户响应概率的预测值大于0.50，我们就将该客户定为目标客户，反之，则不定为目标客户。或者，可以将响应概率预测值为0.40或0.30的客户都定为目标客户，以此类推。截止点的值因问题而异。
为了说明目标锁定过程，我们以附录C中的银行营销研究为例。银行希望其客户投资定期存款。而定期存款为存款单投资，与不设定利率和期限的活期存款不同，定期存款预先设定了存款利率和存款期限。
银行意在确定影响客户对新的定期存款产品做出响应的各种因素，这是银行营销活动的重点。什么样的客户最有可能订购新的定期存款产品呢？而什么样的营销方法才能够最为有效地鼓励客户订购呢？
我们先来看看第一次接到销售电话的银行客户子集。目标营销的部分挑战是面临销售和推广活动反应率低这一问题。在这个问题上，3705名银行客户中，仅71名客户给予了肯定响应，订购了银行提供的定期存款产品。
我们仔细观察每一人口统计数据变量与响应银行产品之间的关系。人口统计数据变量包括年龄、职业类型、婚姻状况和教育水平。我们还观察银行经历变量与响应银行产品之间的关系，这些变量包括客户的年平均余额以及客户是否有拖欠贷款记录、是否有住房贷款或个人贷款。
图3-1至图3-5为所选定关系的马赛克图和晶格图。相比较而言，订购定期存款产品的银行客户年龄较大、受教育水平较高、白领工作者多于蓝领工作者且单身、离异或丧偶者多于有配偶者，他们在银行也很少有住房贷款。
tu3_1
tu3_2_3_3
tu3_4_3_5

我们使用8个解释变量来进行线性预测描述，并对训练数据使用逻辑斯谛回归模型。在逻辑斯谛回归模型中，模型的左侧是系统升级订购概率的数学表达—比值比的对数。
尽管该方法的名称是“逻辑斯谛回归”，但是它涉及分类，而不是回归—在该问题中，响应为分类型的，即客户是否接受银行提供的产品。
tu3_6

我们可通过统计标准来判断模型的性能。选定建模技术后—本案例中为逻辑斯谛回归—我们采用概率截止点来确定目标客户。模型提供一个预测的响应概率，而我们使用截止点将响应概率转换为选择预测。
例如，当观测到的二元响应或选择在“是”和“否”间几乎均衡分布时，就使用0.50的截止点概率。也就是说，当预测的肯定响应“是”的可能性大于0.50时，就预测“是”。否则，预测“否”。
逻辑斯谛回归提供了产品得到有利响应（“是”）的概率的估算方式。图3-6中的密度晶格显示了模型的图示结果，模型性能一目了然。
为了评估这一目标锁定模型的性能，我们来看一个2×2列联表或混淆矩阵，它显示了预测响应值和实际观测到的响应值。如果对产品做出响应的基础概率较低的话，则50%的截止点在银行营销研究中不起作用。
50%的截止点对银行研究不起作用，但是对响应变量（是否接受定期存款产品）使用10%的截止点时，则得到65.9%的分类正确性。针对逻辑斯谛回归和10%截止点的混淆矩阵如图3-7中的马赛克所示。 tu3_7

银行营销研究是典型的目标营销问题。其响应率较低，比0.50要低得多，因此50%的截止点效果不佳。事实上，如果银行分析师们用50%的截止点，则他们预测的结果是每个客户都会做出“否”的响应，且银行无目标客户。截止点过高意味着银行会错过很多潜在的销售业务。
截止点过低也会存在各种问题。截止点过低意味着银行将针对大量客户进行销售，但这些客户中的很多人永远都不会购买定期存款产品。明智的做法是选择一个可以使利润最大化的截止点，前提是要将单位收入和成本与混淆矩阵中的每一个单元相关联。当使用环境正确且截止点设定正确时，目标营销会为公司带来更高的利润。
分析师或数据科学家会设定截止点概率，而截止点会影响到目标锁定模型的财务性能。选择正确截止点的一种方法是计算提升范围或者预测模型提供的响应率，该响应率高于整个客户库中观测到的响应率。我们通过预测的客户对产品的响应概率对客户进行排序，然后注意观察这一预测的概率比产品响应的基础概率高多少。提升范围就是这些概率或者响应率的一个比率。
图3-8为银行营销研究的提升图。横轴表示概率排序所覆盖的客户比例，从最高到最低，而纵轴表示相关的提升价值。
tu3_8

图3-8　目标与逻辑斯谛回归的提升图
通过为响应概率设置截止点值，可以确定我们希望联系的客户是那些购买概率至少为一般客户购买概率的两倍的客户。然后，我们会选择与两个提升值之一相匹配的概率截止点。然而，由于提升值不会直接转化为收入和成本，因此，需要进行财务核算以便为锁定目标客户选择概率截止点。
当进行目标营销时，我们从现有客户中寻找数据，特别是销售交易数据。我们也评估对现有客户投入的销售成本和支持成本。可以将每个客户看作是一项投资，并针对每个客户计算投资回报。如果一个客户的预期终身价值为正值，那么，保留该客户就会有意义。
客户终身价值分析借鉴了财务管理方面的概念。我们根据一段时间内现金流入和流出对投资进行评估。在追求潜在客户之前，我们希望知道贴现现金流入量（销售）将超过贴现现金流出量（成本）。同样，当未来贴现现金流量为正时，保留现有客户就会有意义。欲了解贴现现金流和投资分析，请阅读财务管理参考读物，例如Higgins（2011）以及Brealey、Myers、Allen（2013）。
客户终身价值通过我们与每一个客户交易的经验来计算。对于现金流入量，我们观察销售交易中记录的客户购买历史。对于现金流出量，我们观察客户关系管理系统中记录的以往销售和支持成本。当保存客户的详细记录时，就能实现最佳的客户终身价值分析。
用于评估客户价值的数据可以是面板或纵向数据，行代表客户，列代表时间段。但从以往交易中获得的数据可能不完整，而未来现金流量又未知。因此，就需使用预测模型来估算现金流量。我们利用现有的数据来计算过去交易所漏掉的观察结果，进一步使用从以往交易中获得的观察结果来预测未来的观察结果。
直接营销人员是典型的目标营销人员。他们的工作包括直接通过电话、信件、电子邮件和在线渠道联系潜在客户和老客户。直接营销人员收集并维护有关以往的联系人、信件、收到的和外发的函件以及商业交易等信息。他们以单个客户为基础开展这些工作。而这些数据将用于指导销售促销活动和直接营销方案。直接的信件和外发函件包括产品宣传册和请柬，以及优惠券和有关产品价格、捆绑产品和促销方面的信息。
可以根据对公司的利润贡献对每一场直接营销促销进行评估，其中包括与信件和在线活动相关的成本以及客户订购带来的收入。需观察对直接信件或在线产品做出响应的人员（客户）点击率或比例这一关键数据，因为它决定着促销的成败。
让我们来仔细思考银行营销研究中的收入和成本问题。银行定期存款为贷款提供资金。银行通过收取高于存款利率的贷款利率来产生收入。假设平均存款和贷款额的利率差为100欧元—这相当于一个客户的定期存款的收入。假设联系每个客户（包括信件和电话）所花的相关销售和营销成本为5欧元。再假设存款后/销售后的支持成本为25欧元。然后，使用截止点设定为10%的逻辑斯谛回归对目标营销进行财务分析，分析结果如图3-9所示。我们可以看到，从财务方面讲，目标营销结果对银行是有利的。销售和营销中节约的成本的资金超过了定期存款购买不足所损失的资金。
若设计得当，直接营销促销活动相当于现场实验。一次性将整个促销方案托出并不明智。更好的做法是将促销活动分为几个部分，针对各部分设计不同的直接邮寄广告产品或广告文案。这样一来，促使测试性邮件产生最高利润的那些条件（情况）就会为后续邮件打好基础。在阶段性营销活动中，对于每一场直接营销促销活动，众多处理情况都得到了检验。如今，在实体邮件渠道中使用了多年的各种方法都被搬到了在线渠道。
直接和数据库营销人员建立模型来预测在响应营销促销活动中谁将购买产品。传统的模型或者所谓的RFM模型的考虑范围包括近因（最近购买之日）、频率（购买次数）和以往购买的货币价值（销售收入）。更为复杂的模型还会采用与近因、频率、货币价值以及客户人口统计数据相关的各种解释变量。
Wunderman（1996）和Nash（2000）做了一些有用的传统直接营销论述。Hughes（2000）讨论了与数据库营销和在线直接营销相关的策略。直接和数据库营销被广泛用于营销数据科学。Anand、Buchner（2012）讨论了在交叉销售中的应用，在现有客户名单中找到了额外产品的销售前景。Blattberg、Kim、Neslin（2008）做了一个综合评述，在直接和数据库营销中对营销方法进行建模，包括对RFM模型、提升图和设定概率截止点的替代方法进行了详细讨论。
提升图和ROC曲线是直接和数据库营销中的常用工具。ROC曲线下方的区域是评估分类器的统计准确性的一种好方法，特别是当用于如银行营销研究中观察到的低基础概率问题时。还有许多其他方法可用来评估分类器的统计准确性。见附录A。 tu3_9

分层贝叶斯方法的出现给目标营销（尤其是一对一目标营销）以很好的支撑。贝叶斯统计学者们使用术语消费者异质性来指不同客户的个体差异。他们的观点是，根据消费者在基础属性参数上的位置来描述消费者比根据分类来描述消费者能提供更多的信息。Rossi、Allenby、McCulloch（2005）对贝叶斯方法在营销中的应用进行过论述，而Rossi（2014）和Sermas（2014）还将其应用到R包中。
例证3-1所示为银行营销研究中用于确定目标客户的R程序。该程序采用了Meyer、Zeileis、Hornik、Friendly（2014），Sarkar（2008，2014）以及Sing等（2015）提供的R包。相应的Python程序在本书网站上可以获得。
例证3-1　确定客户目标（R）
li3_1
li3_1_2
li3_1_3
li3_1_4
li3_1_5
li3_1_6
li3_1_7
li3_1_8
li3_1_9
li3_1_10
li3_1_11