数据挖掘与数据化运营实战. 2.2 统计分析与数据挖掘的主要区别

简介:
+关注继续查看

2.2 统计分析与数据挖掘的主要区别

统计分析与数据挖掘有什么区别呢?从实践应用和商业实战的角度来看,这个问题并没有很大的意义,正如“不管白猫还是黑猫,抓住老鼠才是好猫”一样,在企业的商业实战中,数据分析师分析问题、解决问题时,首先考虑的是思路,其次才会对与思路匹配的分析挖掘技术进行筛选,而不是先考虑到底是用统计技术还是用数据挖掘技术来解决这个问题。

从两者的理论来源来看,它们在很多情况下都是同根同源的。比如,在属于典型的数据挖掘技术的决策树里,CART、CHAID等理论和方法都是基于统计理论所发展和延伸的;并且数据挖掘中的技术有相当比例是用统计学中的多变量分析来支撑的。

相对于传统的统计分析技术,数据挖掘有如下一些特点:

数据挖掘特别擅长于处理大数据,尤其是几十万行、几百万行,甚至更多更大的数据。

数据挖掘在实践应用中一般都会借助数据挖掘工具,而这些挖掘工具的使用,很多时候并不需要特别专业的统计背景作为必要条件。不过,需要强调的是基本的统计知识和技能是必需的。

在信息化时代,数据分析应用的趋势是从大型数据库中抓取数据,并通过专业软件进行分析,所以数据挖掘工具的应用更加符合企业实践和实战的需要。

从操作者来看,数据挖掘技术更多是企业的数据分析师、业务分析师在使用,而不是统计学家用于检测。

更主流的观点普遍认为,数据挖掘是统计分析技术的延伸和发展,如果一定要加以区分,它们又有哪些区别呢?数据挖掘在如下几个方面与统计分析形成了比较明显的差异:

统计分析的基础之一就是概率论,在对数据进行统计分析时,分析人员常常需要对数据分布和变量间的关系做假设,确定用什么概率函数来描述变量间的关系,以及如何检验参数的统计显著性;但是,在数据挖掘的应用中,分析人员不需要对数据分布做任何假设,数据挖掘中的算法会自动寻找变量间的关系。因此,相对于海量、杂乱的数据,数据挖掘技术有明显的应用优势。

统计分析在预测中的应用常表现为一个或一组函数关系式,而数据挖掘在预测应用中的重点在于预测的结果,很多时候并不会从结果中产生明确的函数关系式,有时候甚至不知道到底是哪些变量在起作用,又是如何起作用的。最典型的例子就是“神经网络”挖掘技术,它里面的隐蔽层就是一个“黑箱”,没有人能在所有的情况下读懂里面的非线性函数是如何对自变量进行组合的。在实践应用中,这种情况常会让习惯统计分析公式的分析师或者业务人员感到困惑,这也确实影响了模型在实践应用中的可理解性和可接受度。不过,如果能换种思维方式,从实战的角度考虑,只要模型能正确预测客户行为,能为精细化运营提供准确的细分人群和目标客户,业务部门、运营部门不了解模型的技术细节,又有何不可呢?

在实践应用中,统计分析常需要分析人员先做假设或判断,然后利用数据分析技术来验证该假设是否成立。但是,在数据挖掘中,分析人员并不需要对数据的内在关系做任何假设或判断,而是会让挖掘工具中的算法自动去寻找数据中隐藏的关系或规律。两者的思维方式并不相同,这给数据挖掘带来了更灵活、更宽广的思路和舞台。

虽然上面详细阐述了统计分析与数据挖掘的区别,但是在企业的实践应用中,我们不应该硬性地把两者割裂开来,也无法割裂,在实践应用中,没有哪个分析师会说,“我只用数据挖掘技术来分析”,或者“我只用统计分析技术来分析”。正确的思路和方法应该是:针对具体的业务分析需求,先确定分析思路,然后根据这个分析思路去挑选和匹配合适的分析算法、分析技术,而且一个具体的分析需求一般都会有两种以上不同的思路和算法可以去探索,最后可根据验证的效果和资源匹配等一系列因素进行综合权衡,从而决定最终的思路、算法和解决方案。

鉴于实践应用中,统计分析与数据挖掘技术并不能完全被割裂开来,并且本书侧重于数据化运营的实践分享。所以在后续各章节的讨论中,将不再人为地给一个算法、技术贴上“统计分析”或“数据挖掘”的标签,后续各章节的技术分享和实战应用举例,都会本着针对不同的分析目的、项目类型来介绍主流的、有效的分析挖掘技术以及相应的特点和技巧。统计分析也罢,数据挖掘也好,只要有价值,只要在实战中有效,都会是我们所关注的,都会是我们所要分析分享的。

相关文章
|
7月前
|
数据采集 机器学习/深度学习 监控
【数据挖掘实战】——电力窃漏电用户自动识别
【数据挖掘实战】——电力窃漏电用户自动识别
582 0
【数据挖掘实战】——电力窃漏电用户自动识别
|
7月前
|
存储 自然语言处理 算法
数据挖掘实战—使用 word2vec 和 k-mean 聚类寻找相似城市
数据挖掘实战—使用 word2vec 和 k-mean 聚类寻找相似城市
135 0
数据挖掘实战—使用 word2vec 和 k-mean 聚类寻找相似城市
|
7月前
|
自然语言处理 算法 数据挖掘
数据挖掘实战—使用xgboost实现酒店信息消歧
数据挖掘实战—使用xgboost实现酒店信息消歧
150 0
数据挖掘实战—使用xgboost实现酒店信息消歧
|
11月前
|
算法 数据可视化 数据挖掘
python数据挖掘之K-Means 二分K-means K-means++ 以及DBSCAN算法的实战应用(超详细必看)
python数据挖掘之K-Means 二分K-means K-means++ 以及DBSCAN算法的实战应用(超详细必看)
159 0
python数据挖掘之K-Means 二分K-means K-means++ 以及DBSCAN算法的实战应用(超详细必看)
|
机器学习/深度学习 数据采集 算法
数据挖掘实战:个人信贷违约预测(下)
大家好,我是东哥。本次分享一个数据挖掘实战项目:个人信贷违约预测,此项目对于想要学习信贷风控模型的同学非常有帮助,数据和源码在文末。
数据挖掘实战:个人信贷违约预测(下)
|
机器学习/深度学习 数据采集 算法
数据挖掘实战:个人信贷违约预测(上)
大家好,我是东哥。本次分享一个数据挖掘实战项目:个人信贷违约预测,此项目对于想要学习信贷风控模型的同学非常有帮助,数据和源码在文末。
数据挖掘实战:个人信贷违约预测(上)
|
数据挖掘 Python 数据采集
带你读《Python金融大数据挖掘与分析全流程详解》之三:金融数据挖掘案例实战1
本书以功能强大且较易上手的Python语言为编程环境,全面讲解了金融数据的获取、处理、分析及结果呈现。全书共16章,内容涉及Python基础知识、网络数据爬虫技术、数据库存取、数据清洗、数据可视化、数据相关性分析、IP代理、浏览器模拟操控、邮件发送、定时任务、文件读写、云端部署、机器学习等,可以实现舆情监控、智能投顾、量化金融、大数据风控、金融反欺诈模型等多种金融应用。
|
消息中间件 分布式计算 大数据
Hadoop大数据挖掘从入门到进阶实战
1.概述   大数据时代,数据的存储与挖掘至关重要。企业在追求高可用性、高扩展性及高容错性的大数据处理平台的同时还希望能够降低成本,而Hadoop为实现这些需求提供了解决方案。面对Hadoop的普及和学习热潮,笔者愿意分享自己多年的开发经验,带领读者比较轻松地掌握Hadoop数据挖掘的相关知识。
1854 0
|
数据挖掘 Python
数据挖掘实战(一):Kaggle竞赛经典案例剖析
Load Lib 在这边提一下为什么要加 import warnings warnings.filterwarnings('ignore') 主要就是为了美观,如果不加的话,warning一堆堆的,不甚整洁。
7474 0
热门文章
最新文章
推荐文章
更多