如何用大数据找到客户

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:

Intetix Foundation(英明泰思基金会)由从事数据科学、非营利组织和公共政策研究的中国学者发起成立,致力于通过数据科学改善人类社会和自然环境。通过联络、动员中美最顶尖的数据科学家和社会科学家,以及分布在全球的志愿者,我们创造性地践行着我们的使命:为美好生活洞见数据价值。

原作者:1.Jeroen D’Haen 2.Dirk Van den Poel 3.Dirk Thorleuchter

摘要

一般来说,新客户获得的过程对销售代表而言压力颇大。幸运的是,销售代表们可以运用一些模型来帮助自己选择”正确的” 潜在客户。在选择“正确”潜在客户的过程中有两样重要因素:潜在客户成为真正客户的可能性,以及其成为客户后带来的收益。本文主要讨论后者。本文对现存的文献贡献主要有两点:首先,给出了两种数据源——网络数据和可获取的商业数据的预测效果,其目的在于找出作为收益预测输入时具有更高精确度的一项,并且研究结合使用能否提高精确度;其次,研究了不同数据挖掘技术的预测效果。结果表明(bagged)决策树(模型)在现实生活中的精确度更高。使用网络数据优于商业数据,而二者的结合使用更优于其单独使用。尽管商业数据在统计意义上颇为重要,但其附加价值相当有限。

1、介绍

新客户的获得是循序渐进的过程,只有部分特定的潜在客户才会成为真正的客户。一般来说,这个过程对销售代表而言压力颇大。幸运的是,销售代表们可以运用一些模型来帮助自己选择”正确的”潜在客户。在选择“正确”潜在客户的过程中有两样重要因素:潜在客户成为真正客户的可能性,以及其成为客户后带来的收益。本文主要讨论后者。本文旨在设计出一个能够预测其能否带来收益的模型。然而,此收益模型的主要瓶颈在于缺乏高质量的数据。本文将介绍一个新的数据源,并且比较它和传统数据源的表现,此外,我们将不同的数据挖掘技术和不同的数据源进行组合比较,并给出哪种组合能有更高的精确度。

构造一个高质量的预测收益模型的先决条件是要能获得高质量的数据。大多数模型都依赖于从特定供应商购买的商业数据。而从网络获取的文本信息被作为较新的模型数据源用于研究,运用网络挖掘和文本挖掘技术能从现存的或潜在的客户的网站上收集这类信息(Thorleuchter, Van den Poel, & Prinzie, 2012)。然而文本信息很少用作企业分析的输入(Coussement & Van den Poel, 2009),因为网络数据包含难以分析的非结构化数据,而隐式索引技术能让数据更结构化且可被用于模型的输入(Thorleuchter et al., 2012)。

本文对现存的文献贡献主要有两点:首先,给出了两种数据源——网络数据和可获取的商业数据,的预测效果,其目的在于找出作为收益预测输入时具有更高精确度的一项,并且研究结合使用能否提高精确度。其次,研究了不同的挖掘技术的预测效果。因此所有的研究问题能阐述如下:技术与数据源的何种组合是最精确的。本文与Thorleuchter et al. (2012)给出的论文之间的差异也彰显了这两点主要贡献。本文研究并比较了不同数据源和数据挖掘技术而不仅限于简单地对网络数据运用逻辑回归方法。这样就有一个清晰的基准(即商业数据)与网络数据作比较。因此本文可被看作是将从通过数据挖掘技术从网上获得的文本数据作为收益模型输入的首次真正尝试,并且本文将详细描述观测到的结果。

本文余下部分:首先比较网络数据和可获得的商业数据,再深入研究不同的数据挖掘技术,而结果将在对于所用数据的简单介绍后给出,最后就是我们的结论,以及对于本文局限性的论述和对后继研究的建议。

2、网络数据与可获得的商业化数据的比较

现今大多公司构建了包含大量客户信息及购买行为信息的大容量数据库(Shaw, Subramaniam, Tan, & Welge, 2001),而数据挖掘技术则被用于提取出隐藏于这些数据库中的信息(Mitra, Pal, & Mitra, 2002)。然而,这种数据源并不适于辨识出有价值的潜在客户(Arndt & Gersten, 2001)。公司构建的数据库只能代表其内部信息,即只会包含该公司自己的客户的信息。

3、数据挖掘技术

逻辑回归

决策树

决策树有几个特别的优点(Tirenni, Kaiser, & Herrmann, 2007)。决策树是非参数方法,其单调预测变换时不变的(即无需变量变换)。参数化方法在数据维度较高情况下结果较差(我们所用数据即高维数据)(Petersen,Molinaro, Sinisi, & van der Laan, 2007)。另外,决策树在异常值的影响下是粗略的,图一给出了一棵简单的树可视化描述。

装袋(Bagging)

评估标准

5、结果

表1展示了不同数据来源下的数据挖掘技术的全部结论。表1告诉我们数据装袋是效果最好的(有最佳的AUC)。同时,与商业数据相比,网络数据可以产出更好的结论,与数据来源结合起来则会更佳。但令人奇怪的一点是,当商业数据和网络数据结合在一起时,AUC却会比单独使用商业数据时更低。这可能是因为逻辑回归分析无法处理高维度,尤其当应用选择法时。最终,回归适合了理想模型。此外,在网络数据及数据结合的案例中,更先进的数据装袋技术优于回归分析,而在商业数据模型中,预测性能方面没有什么不同。因此,可能是网络数据比商业数据包含更多的噪音干扰,且在自然中是非线性的。进一步的分析会展示这些结果是否是统计上显著的。

无论使用哪种类型的数据,决策树的AUC都为0.5。因为因为决策树修剪后,只有根节点仍保持。结果,决策树只给出一个不变的价值作为预测。在表2中我们可以看到,与决策树相比,回归和装袋树(同最高的AUC一起测验)有明显更高的准确性。装袋树和回归没有显著不同。图2中回归线和装袋树相交,也对这一点做出了阐述。

图2 ROC曲线-商业数据

至于网络数据,比起回归和一般决策树(表3)来,明显是装袋具有更高的准确性。图3显示装袋树与其他任何数据挖掘技术都没有相交。回归比决策树表现更好,但准确性仍较低(AUC=0.56,表1)。

图3 ROC曲线-网络数据

下一步就是将数据来源结合起来(网络+商业上可获得的外部数据),看看不同的数据挖掘技术的预测表现是什么。回归又一次比决策树效果更好(表4),尽管AUC仍较低(AUC=0.56,表1)。

此外,当结合两种数据来源时,回归效果比单独使用商业数据时更差(表1)。装袋树有最高的AUC,效果比回归和一般决策树更好(表4)。图4也清晰展现了这一点。

图4 ROC曲线-两种数据结合

最后一步是针对每个数据来源(在本例中是装袋树)比较出最佳的数据挖掘技术,并找出哪种数据类型会得出最佳结果。网络数据比商业数据结果好,但结合两种数据会提升预测表现(表5)。图5以图片形式生动展现了这一点。当装袋决策树时,也可能会得到重要变量的一个测量值。前十名的重要变量中绝大多数是网络数据变量,但其中的两个是来自商业数据集的。贷款和资本分别是重要变量的第四位和第九位,它们是预测公司盈利能力的两个重要指标。

图5 ROC曲线-最佳数据挖掘技术

6、结论与讨论

本文的目的是研究在预测客户盈利能力时,使用哪种数据来源并应用哪种数据挖掘方法更为有效。所研究的方法有逻辑回归、决策树和装袋决策树。所使用的两种数据类型为:来源于网络挖掘的数据和购买自专业卖主的数据。网络数据免费且人人都可通过互联网途径获得。不考虑数据来源的话,装袋决策树提供了最高的AUC(除商业数据外——在商业数据中,回归的表现同样好)。与商业数据相比,网络数据有更高的预测表现,但将两类数据结合的话,则会得到最好的结果。这对管理具有启示。在建立模型时,装袋决策树应该比逻辑回归和一般决策树更受欢迎。而且,网络数据是该模型理想的起点输入。如果预算允许购买外部数据的话,还可以将其与网络数据结合去提高模型未来的预测表现。不过,需要做一个成本效益分析,看看付出高额的数据购买费用是不是合理,因为预测表现的增长往往会比较小(相对而言)。

7、局限与进一步研究

本文所使用的定义是作为变量的,每年都不同。此外,数据集既要包括公司的老客户也要包括新客户。进一步的研究在定义变量时应该覆盖这段时间的部分。第二个局限是,由于使用了特殊的修剪法,决策树的AUC总是0.5。但是,我们确信,就算使用了不同的修剪方法,单一的决策树也不会给出令人惊喜的结果。正如第一部分中的解释一样,在客户获得的过程中,两个因素起作用:潜在客户成为真正客户的可能性,以及其成为客户后的盈利能力。本文使用数据来源与数据挖掘技术结合的研究方法,关注于客户盈利能力的预测。进一步的研究应当关注是否应当在客户获得模型中使用网络数据,这已超出了本文的研究范围

本文转自d1net(转载)

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
数据采集 机器学习/深度学习 人工智能
大数据分析案例-用RFM模型对客户价值分析(聚类)
大数据分析案例-用RFM模型对客户价值分析(聚类)
1302 0
大数据分析案例-用RFM模型对客户价值分析(聚类)
|
6月前
|
物联网 大数据 BI
助力工业物联网,工业大数据之客户回访事实指标需求分析【二十三】
助力工业物联网,工业大数据之客户回访事实指标需求分析【二十三】
70 0
|
数据采集 机器学习/深度学习 分布式计算
从0到1搭建车企数字化营销中台(4):客户数据平台(CDP)
CDP作为数字化营销中台的核心数据引擎,承载着拉通客户全渠道、全旅程链路的数据,实现智能洞察和营销决策
3319 0
从0到1搭建车企数字化营销中台(4):客户数据平台(CDP)
|
存储 搜索推荐 数据管理
为什么Apache Unomi开源[客户数据平台」值得一看
为什么Apache Unomi开源[客户数据平台」值得一看
|
存储 搜索推荐 数据可视化
|
算法 大数据
《聚星台—客户运营核心大数据 与算法技术》电子版地址
聚星台—客户运营核心大数据 与算法技术
92 0
《聚星台—客户运营核心大数据 与算法技术》电子版地址
|
数据采集 机器学习/深度学习 算法
大数据分析案例-基于RFM模型对电商客户价值分析(聚类)
大数据分析案例-基于RFM模型对电商客户价值分析(聚类)
1044 0
大数据分析案例-基于RFM模型对电商客户价值分析(聚类)
|
机器学习/深度学习 数据采集 算法
大数据分析案例-对电信客户流失分析预警预测
大数据分析案例-对电信客户流失分析预警预测
1540 0
大数据分析案例-对电信客户流失分析预警预测
|
大数据 数据挖掘 数据建模
运营商大数据精准获客是怎么做到的?企业如何以低成本获取精准客户?
运营商拥有强大的云计算大数据中心,可以通过建立数据模型对任何网站,网页,网址,手机app,400电话,固话,关键词,短信号码等平台进行实时精准数据分析,通过用户综合行为,和用户偏好等综合用户信息等,对目标客户群体进行精准抓取和获取,同时还可以筛选如地区,性别,年龄,职业,访问次数,访问时长,通话次数,通话时长等维度,对目标客户群体更加精准定位。
运营商大数据精准获客是怎么做到的?企业如何以低成本获取精准客户?
|
安全 搜索推荐 大数据
精准大数据获客如何做到APP直抓 精准截流 提高客户质量
在公司市场竞争的大环境中,许多公司为了更好地存活,迫不得已去寻找新的销售渠道,稍不留神被坑上当受骗的事儿也常常产生。现阶段在销售市场上充溢这许多披上大数据“外套”的知名品牌,去做销售市场,乃至还存有违法违纪的个人行为存有。为了更好地更强的服务型,为大量创业人出示更强领域数据解决方法,运营商大数据就应时而生。
精准大数据获客如何做到APP直抓 精准截流 提高客户质量