Intetix Foundation(英明泰思基金会)由从事数据科学、非营利组织和公共政策研究的中国学者发起成立,致力于通过数据科学改善人类社会和自然环境。通过联络、动员中美最顶尖的数据科学家和社会科学家,以及分布在全球的志愿者,我们创造性地践行着我们的使命:为美好生活洞见数据价值。
原作者:1.Jeroen D’Haen 2.Dirk Van den Poel 3.Dirk Thorleuchter
摘要
一般来说,新客户获得的过程对销售代表而言压力颇大。幸运的是,销售代表们可以运用一些模型来帮助自己选择”正确的” 潜在客户。在选择“正确”潜在客户的过程中有两样重要因素:潜在客户成为真正客户的可能性,以及其成为客户后带来的收益。本文主要讨论后者。本文对现存的文献贡献主要有两点:首先,给出了两种数据源——网络数据和可获取的商业数据的预测效果,其目的在于找出作为收益预测输入时具有更高精确度的一项,并且研究结合使用能否提高精确度;其次,研究了不同数据挖掘技术的预测效果。结果表明(bagged)决策树(模型)在现实生活中的精确度更高。使用网络数据优于商业数据,而二者的结合使用更优于其单独使用。尽管商业数据在统计意义上颇为重要,但其附加价值相当有限。
1、介绍
新客户的获得是循序渐进的过程,只有部分特定的潜在客户才会成为真正的客户。一般来说,这个过程对销售代表而言压力颇大。幸运的是,销售代表们可以运用一些模型来帮助自己选择”正确的”潜在客户。在选择“正确”潜在客户的过程中有两样重要因素:潜在客户成为真正客户的可能性,以及其成为客户后带来的收益。本文主要讨论后者。本文旨在设计出一个能够预测其能否带来收益的模型。然而,此收益模型的主要瓶颈在于缺乏高质量的数据。本文将介绍一个新的数据源,并且比较它和传统数据源的表现,此外,我们将不同的数据挖掘技术和不同的数据源进行组合比较,并给出哪种组合能有更高的精确度。
构造一个高质量的预测收益模型的先决条件是要能获得高质量的数据。大多数模型都依赖于从特定供应商购买的商业数据。而从网络获取的文本信息被作为较新的模型数据源用于研究,运用网络挖掘和文本挖掘技术能从现存的或潜在的客户的网站上收集这类信息(Thorleuchter, Van den Poel, & Prinzie, 2012)。然而文本信息很少用作企业分析的输入(Coussement & Van den Poel, 2009),因为网络数据包含难以分析的非结构化数据,而隐式索引技术能让数据更结构化且可被用于模型的输入(Thorleuchter et al., 2012)。
本文对现存的文献贡献主要有两点:首先,给出了两种数据源——网络数据和可获取的商业数据,的预测效果,其目的在于找出作为收益预测输入时具有更高精确度的一项,并且研究结合使用能否提高精确度。其次,研究了不同的挖掘技术的预测效果。因此所有的研究问题能阐述如下:技术与数据源的何种组合是最精确的。本文与Thorleuchter et al. (2012)给出的论文之间的差异也彰显了这两点主要贡献。本文研究并比较了不同数据源和数据挖掘技术而不仅限于简单地对网络数据运用逻辑回归方法。这样就有一个清晰的基准(即商业数据)与网络数据作比较。因此本文可被看作是将从通过数据挖掘技术从网上获得的文本数据作为收益模型输入的首次真正尝试,并且本文将详细描述观测到的结果。
本文余下部分:首先比较网络数据和可获得的商业数据,再深入研究不同的数据挖掘技术,而结果将在对于所用数据的简单介绍后给出,最后就是我们的结论,以及对于本文局限性的论述和对后继研究的建议。
2、网络数据与可获得的商业化数据的比较
现今大多公司构建了包含大量客户信息及购买行为信息的大容量数据库(Shaw, Subramaniam, Tan, & Welge, 2001),而数据挖掘技术则被用于提取出隐藏于这些数据库中的信息(Mitra, Pal, & Mitra, 2002)。然而,这种数据源并不适于辨识出有价值的潜在客户(Arndt & Gersten, 2001)。公司构建的数据库只能代表其内部信息,即只会包含该公司自己的客户的信息。
3、数据挖掘技术
逻辑回归
决策树
决策树有几个特别的优点(Tirenni, Kaiser, & Herrmann, 2007)。决策树是非参数方法,其单调预测变换时不变的(即无需变量变换)。参数化方法在数据维度较高情况下结果较差(我们所用数据即高维数据)(Petersen,Molinaro, Sinisi, & van der Laan, 2007)。另外,决策树在异常值的影响下是粗略的,图一给出了一棵简单的树可视化描述。
装袋(Bagging)
评估标准
5、结果
表1展示了不同数据来源下的数据挖掘技术的全部结论。表1告诉我们数据装袋是效果最好的(有最佳的AUC)。同时,与商业数据相比,网络数据可以产出更好的结论,与数据来源结合起来则会更佳。但令人奇怪的一点是,当商业数据和网络数据结合在一起时,AUC却会比单独使用商业数据时更低。这可能是因为逻辑回归分析无法处理高维度,尤其当应用选择法时。最终,回归适合了理想模型。此外,在网络数据及数据结合的案例中,更先进的数据装袋技术优于回归分析,而在商业数据模型中,预测性能方面没有什么不同。因此,可能是网络数据比商业数据包含更多的噪音干扰,且在自然中是非线性的。进一步的分析会展示这些结果是否是统计上显著的。
无论使用哪种类型的数据,决策树的AUC都为0.5。因为因为决策树修剪后,只有根节点仍保持。结果,决策树只给出一个不变的价值作为预测。在表2中我们可以看到,与决策树相比,回归和装袋树(同最高的AUC一起测验)有明显更高的准确性。装袋树和回归没有显著不同。图2中回归线和装袋树相交,也对这一点做出了阐述。
图2 ROC曲线-商业数据
至于网络数据,比起回归和一般决策树(表3)来,明显是装袋具有更高的准确性。图3显示装袋树与其他任何数据挖掘技术都没有相交。回归比决策树表现更好,但准确性仍较低(AUC=0.56,表1)。
图3 ROC曲线-网络数据
下一步就是将数据来源结合起来(网络+商业上可获得的外部数据),看看不同的数据挖掘技术的预测表现是什么。回归又一次比决策树效果更好(表4),尽管AUC仍较低(AUC=0.56,表1)。
此外,当结合两种数据来源时,回归效果比单独使用商业数据时更差(表1)。装袋树有最高的AUC,效果比回归和一般决策树更好(表4)。图4也清晰展现了这一点。
图4 ROC曲线-两种数据结合
最后一步是针对每个数据来源(在本例中是装袋树)比较出最佳的数据挖掘技术,并找出哪种数据类型会得出最佳结果。网络数据比商业数据结果好,但结合两种数据会提升预测表现(表5)。图5以图片形式生动展现了这一点。当装袋决策树时,也可能会得到重要变量的一个测量值。前十名的重要变量中绝大多数是网络数据变量,但其中的两个是来自商业数据集的。贷款和资本分别是重要变量的第四位和第九位,它们是预测公司盈利能力的两个重要指标。
图5 ROC曲线-最佳数据挖掘技术
6、结论与讨论
本文的目的是研究在预测客户盈利能力时,使用哪种数据来源并应用哪种数据挖掘方法更为有效。所研究的方法有逻辑回归、决策树和装袋决策树。所使用的两种数据类型为:来源于网络挖掘的数据和购买自专业卖主的数据。网络数据免费且人人都可通过互联网途径获得。不考虑数据来源的话,装袋决策树提供了最高的AUC(除商业数据外——在商业数据中,回归的表现同样好)。与商业数据相比,网络数据有更高的预测表现,但将两类数据结合的话,则会得到最好的结果。这对管理具有启示。在建立模型时,装袋决策树应该比逻辑回归和一般决策树更受欢迎。而且,网络数据是该模型理想的起点输入。如果预算允许购买外部数据的话,还可以将其与网络数据结合去提高模型未来的预测表现。不过,需要做一个成本效益分析,看看付出高额的数据购买费用是不是合理,因为预测表现的增长往往会比较小(相对而言)。
7、局限与进一步研究
本文所使用的定义是作为变量的,每年都不同。此外,数据集既要包括公司的老客户也要包括新客户。进一步的研究在定义变量时应该覆盖这段时间的部分。第二个局限是,由于使用了特殊的修剪法,决策树的AUC总是0.5。但是,我们确信,就算使用了不同的修剪方法,单一的决策树也不会给出令人惊喜的结果。正如第一部分中的解释一样,在客户获得的过程中,两个因素起作用:潜在客户成为真正客户的可能性,以及其成为客户后的盈利能力。本文使用数据来源与数据挖掘技术结合的研究方法,关注于客户盈利能力的预测。进一步的研究应当关注是否应当在客户获得模型中使用网络数据,这已超出了本文的研究范围
本文转自d1net(转载)