数据分析就是通过得到的数据,来发现各种规律之间的关系
数据分析与数据挖掘之间的关系
数据分析
定义:简单来说,数据分析就是对数据进行分析。专业的说法,数据分析是指根据分析目的,用适当的统计分析方法及工具,对收集来的数据进行处理与分析,提取有价值的信息,发挥数据的作用。
作用:它主要实现三大作用:现状分析、原因分析、预测分析(定量)。数据分析的目标明确,先做假设,然后通过数据分析来验证假设是否正确,从而得到相应的结论。
数据挖掘
定义:数据挖掘是指从大量的数据中,通过统计学、人工智能、机器学习等方法,挖掘出未知的、且有价值的信息和知识的过程。
作用:数据挖掘主要侧重解决四类问题:分类、聚类、关联和预测(定量、定性),数据挖掘的重点在寻找未知的模式与规律;如我们常说的数据挖掘案例:啤酒与尿布、安全套与巧克力等,这就是事先未知的,但又是非常有价值的信息;
数据分析的基本步骤
数据收集
数据预处理
数据预处理是完成数据到信息的过程:
1. 对数据进行初步的统计分析,得到数据的基本档案
2. 分析数据的质量,从数据的一致性、完整性、准确性、及时性
3. 根据数据的质量问题对数据进行清洗,包括缺失值处理,噪声处理
4. 特征提取
数据分析与知识发现
对预处理后的数据进行进一步的处理,完成信息到认知的过程。
有监督的分析
分类分析
关联分析
回归分析
无监督的分析
聚类分析
异常检测
数据后处理
python和数据分析
python是面向生产的
有强大的第三方库的支持
python胶水语言的特性