大数据、数据挖掘、数据分析、数理统计之间的关系

简介:

一、基于大数据的数据分析方法


 

基于大数据的数据分析方法的理论基础是数据挖掘和分布式计算原理。大数据具有海量、快速、多样化和有价值四个方面的重要特征,其海量特性使得数据分析时不可能用单台机器完成而是需要多台机器同时运算,也就是所谓的分布式运算。在大数据时代,大数据技术需要解决两个难题:一是海量数据在多台机器上的存储;二是解决如何对多台机器上存储的数据进行计算分析。大数据技术的基本原理还是聚类、分类、主题推荐等数据挖掘算法的内容,在基于大数据的数据分析方法中,有很多方法都是对原有算法的改进,将原来单机实现的算法改成多台机器的分布式计算。简单地说,基于大数据的数据分析方法就是分析工具不一样的数据分析方法,有的也加入了数理统计的思想。

 


二、大数据分析常用工具一览


 

1Hadoop大数据生态平台


Hadoop 是一个能够对大量数据进行分布式处理的软件框架。但是 Hadoop 是以一种可靠、高效、可伸缩的方式进行处理的。Hadoop 是可靠的,因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理。Hadoop 是高效的,因为它以并行的方式工作,通过并行处理加快处理速度。Hadoop 还是可伸缩的,能够处理 PB 级数据。此外,Hadoop 依赖于社区服务器,因此它的成本比较低,任何人都可以使用。

 

2.Spark,大数据分析的“瑞士军刀”

 

Spark 也是 Apache 基金会的开源项目,它由加州大学伯克利分校的实验室开发,是另外一种重要的分布式计算系统。它在 Hadoop 的基础上进行了一些架构上的改良。Spark 与 Hadoop 最大的不同点在于,Hadoop 使用硬盘来存储数据,而 Spark 使用内存来存储数据,因此 Spark 可以提供超过Hadoop100 倍的运算速度。但是,由于内存断电后数据会丢失,Spark 不能用于处理需要长期保存的数据。目前 Spark 完成了大部分的数据挖掘算法由单机到分布式的改造,并提供了较方便的数据分析可视化界面。

 

3.Storm,实时大数据处理工具

 

Storm 是 Twitter 主推的分布式计算系统,它由 BackType 团队开发,是 Apache 基金会的孵化项目。它在 Hadoop 的基础上提供了实时运算的特性,可以实时地处理大数据流。不同于 Hadoop 和Spark,Storm 不进行数据的收集和存储工作,它直接通过网络实时地接收数据并且实时地处理数据,然后直接通过网络实时地传回结果。

 


三、数理统计与数据挖掘的区别与联系


 

1.  数理统计与数据挖掘的联系

 

从两者的理论来源来看,它们都来源于统计基础理论,因此它们的很多方法在很多情况下都是同根同源的。例如,概率论和随机事件是统计学的核心理论之一,统计分析中的抽样估计需要应用该理论,而数据挖掘技术的朴素贝叶斯分类就是这些统计理论的发展和延伸。


有的时候两者的一些方法还会出现混淆的情况,例如,主成分分析和回归分析。从严格意义上讲,这两种分析方法都属于数理统计分析方法,但在数据挖掘实战应用中也常常会用到这种方式,从这个角度讲,主成分分析和回归分析也是数据挖掘商业实战中常用的一种分析技术和数据处理技术。

 

2.数理统计与数据挖掘的区别

 

更普遍的观点认为,数据挖掘是数理统计的延伸和发展,如果一定要加以区分,它们又有哪些区别呢?数据挖掘在如下几个方面与数理统计存在比较明显的差异。数理统计的基础之一就是概率论,在对数据进行数理统计分析时,分析人员常常需要对数据分布和变量间的关系作假设,确定用什么概率函数来描述变量间的关系,以及如何检验参数的统计显著性。但是,在数据挖掘的应用中,分析人员不需要对数据分布做任何假设,数据挖掘中的算法会自动寻找变量间的关系。因此,相对于海量、杂乱的数据,数据挖掘技术有明显的应用优势。


数理统计在预测中的应用常表现为一个或一组函数关系式,而数据挖掘在预测应用中的重点在于预测的结果,很多时候并不会从结果中产生明确的函数关系式,有时候甚至不知道到底是哪些变量在起作用,又是如何起作用的。最典型的例子就是“神经网络”挖掘技术,它里面的隐蔽层就是一个“黑箱”,没有人能在所有的情况下读懂里面的非线性函数是如何对自变量进行组合的。在实践应用中,这种情况常会让习惯数理统计公式的分析师或者业务人员感到困惑,这也确实影响了模型在实践应用中的可理解性和可接受度。


在实践应用中,数理统计常需要分析人员先作假设或判断,然后利用数据分析技术来验证该假设是否成立。但是,在数据挖掘中,分析人员并不需要对数据的内在关系做任何假设或判断,而是会让挖掘工具中的算法自动去寻找数据中隐藏的关系或规律。两者的思维方式并不相同,这给数据挖掘带来了更灵活、更宽广的思路和舞台。


虽然上面详细阐述了数理统计与数据挖掘的区别,但是在企业的实践应用中,我们不应该硬性地把两者割裂开来,其实它们也无法割裂,没有哪个分析师会说:“我只用数据挖掘技术来分析”或者“我只用数理统计技术来分析”。正确的思路和方法应该是:针对具体的业务分析需求,先确定分析思路,然后根据这个分析思路去挑选和匹配合适的分析算法、分析技术,而且一个具体的分析需求一般都会有两种以上不同的思路和算法可以去探索,最后可以根据验证的效果和资源匹配等一系列因素进行综合权衡,从而决定最终的思路、算法和解决方案。

 


四、大数据时代企业该如何布局,个人该如何选择?


 

数据分析师应对上述每种不同的数据分析方法都要了解,因为不同的数据分析方法适用的场景是不一样的,能解决的数据分析目标也是不一样的,例如生物行业用数理统计最多,电商行业用数据挖掘较多,当电商行业的数据量很大时,就要用基于大数据的数据挖掘算法了。在学习具体的数据分析方法时,主要要了解其使用的场景,当你在做具体的数据分析时就知道选择哪一种分析方法了。另外,在选择数据分析方法时,不要热衷于高深的方法,“不管白猫黑猫,抓住老鼠就是好猫”,要用最简单方法把问题解决,有的时候用最简单的描述性统计方法能解决问题,就不要用数据挖掘算法了。


对于是否使用大数据分析方法,这个需要看企业的性质和将来的发展方向,一般不是所有的企业都具有进行大数据分析的可能,企业管理者不应迷失在大数据面前,而应根据自己的实际业务确立商业目标,有选择地获取数据,然后进行分析。面对大数据时代的到来,国内的数据分析师们最需要做的是和企业的管理部一起,探讨如何给企业的现在和未来做一个好的规划,看自己是否具有大数据分析的可能,如果有,则如何实现从现有的小数据分析向大数据分析转型,从人才到数据的准备,这些都需要有一个充分的思考过程才能确定。

本文转自 stock0991 51CTO博客,原文链接:http://blog.51cto.com/qing0991/1901992


相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
9月前
|
数据采集 人工智能 算法
数据没洗干净,分析全白干:聊聊大数据里的“洗澡水”工程
数据没洗干净,分析全白干:聊聊大数据里的“洗澡水”工程
290 1
|
5月前
|
数据可视化 大数据 关系型数据库
基于python大数据技术的医疗数据分析与研究
在数字化时代,医疗数据呈爆炸式增长,涵盖患者信息、检查指标、生活方式等。大数据技术助力疾病预测、资源优化与智慧医疗发展,结合Python、MySQL与B/S架构,推动医疗系统高效实现。
|
5月前
|
机器学习/深度学习 搜索推荐 数据挖掘
数据分析真能让音乐产业更好听吗?——聊聊大数据在音乐里的那些事
数据分析真能让音乐产业更好听吗?——聊聊大数据在音乐里的那些事
265 9
|
6月前
|
数据可视化 数据挖掘 大数据
基于python大数据的水文数据分析可视化系统
本研究针对水文数据分析中的整合难、分析单一和可视化不足等问题,提出构建基于Python的水文数据分析可视化系统。通过整合多源数据,结合大数据、云计算与人工智能技术,实现水文数据的高效处理、深度挖掘与直观展示,为水资源管理、防洪减灾和生态保护提供科学决策支持,具有重要的应用价值和社会意义。
|
7月前
|
存储 数据挖掘 大数据
基于python大数据的用户行为数据分析系统
本系统基于Python大数据技术,深入研究用户行为数据分析,结合Pandas、NumPy等工具提升数据处理效率,利用B/S架构与MySQL数据库实现高效存储与访问。研究涵盖技术背景、学术与商业意义、国内外研究现状及PyCharm、Python语言等关键技术,助力企业精准营销与产品优化,具有广泛的应用前景与社会价值。
|
8月前
|
SQL 分布式计算 数据挖掘
你以为大数据只是存?其实真正的“宝藏”藏在这招里——数据挖掘!
你以为大数据只是存?其实真正的“宝藏”藏在这招里——数据挖掘!
259 1
|
10月前
|
存储 关系型数据库 MySQL
大数据新视界 --面向数据分析师的大数据大厂之 MySQL 基础秘籍:轻松创建数据库与表,踏入大数据殿堂
本文详细介绍了在 MySQL 中创建数据库和表的方法。包括安装 MySQL、用命令行和图形化工具创建数据库、选择数据库、创建表(含数据类型介绍与选择建议、案例分析、最佳实践与注意事项)以及查看数据库和表的内容。文章专业、严谨且具可操作性,对数据管理有实际帮助。
大数据新视界 --面向数据分析师的大数据大厂之 MySQL 基础秘籍:轻松创建数据库与表,踏入大数据殿堂
|
8月前
|
机器学习/深度学习 Java 大数据
Java 大视界 -- Java 大数据在智能政务公共资源交易数据分析与监管中的应用(202)
本篇文章深入探讨了 Java 大数据在智能政务公共资源交易监管中的创新应用。通过构建高效的数据采集、智能分析与可视化决策系统,Java 大数据技术成功破解了传统监管中的数据孤岛、效率低下和监管滞后等难题,为公共资源交易打造了“智慧卫士”,助力政务监管迈向智能化、精准化新时代。
|
机器学习/深度学习 数据采集 数据可视化
基于爬虫和机器学习的招聘数据分析与可视化系统,python django框架,前端bootstrap,机器学习有八种带有可视化大屏和后台
本文介绍了一个基于Python Django框架和Bootstrap前端技术,集成了机器学习算法和数据可视化的招聘数据分析与可视化系统,该系统通过爬虫技术获取职位信息,并使用多种机器学习模型进行薪资预测、职位匹配和趋势分析,提供了一个直观的可视化大屏和后台管理系统,以优化招聘策略并提升决策质量。
1010 4
|
数据采集 数据可视化 数据挖掘
数据分析大神养成记:Python+Pandas+Matplotlib助你飞跃!
在数字化时代,数据分析至关重要,而Python凭借其强大的数据处理能力和丰富的库支持,已成为该领域的首选工具。Python作为基石,提供简洁语法和全面功能,适用于从数据预处理到高级分析的各种任务。Pandas库则像是神兵利器,其DataFrame结构让表格型数据的处理变得简单高效,支持数据的增删改查及复杂变换。配合Matplotlib这一数据可视化的魔法棒,能以直观图表展现数据分析结果。掌握这三大神器,你也能成为数据分析领域的高手!
324 2