数据分类
定量数据
离散变量
连续变量
定性数据
定序变量
名义变量
集中趋势
主要测度是均值,中位数,和众数
离散程度
考虑变量的离散程度,主要考虑变量各个取值之间的差异,常见的测量有极差,方差和标准差
相关性测量
数据可视化,将要分析的变量绘制成折线图或者散点图,做图表分析,可以对数据进行初步观察和分析
计算变量间的协方差 协方差可以确定相关关系的正负,但没有关于关系的强度信息
计算变量间的相关系数 相关系数是一个不受测量单位影响的相关关系统计量,理论上限是+1(或-1)表示完全线性相关
进行元回归或多元线性回归分析
数据缺失
数据集中不含缺失变量称为为完全变量,含有缺失值的变量称为不完全变量
噪声
噪声是指被观测的变量的随机误差或方差
噪声 = 观测值 - 真实数据
离群点
数据集中包含这样一些数据对象,他们与数据的一般行为和模型不一致,这样的对象被称为离群点,离群点属于观测变量
数据质量
完整性
数据信息是否存在缺失情况
一致性
数据是否符合规范,数据集中的数据是否保持统一格式
准确性
数据记录的信息是否存在异常或错误
及时性
及时性是指数据从产生到可以查看的时间间隔
数据清洗
缺失值的处理
常见的方法有,忽略有缺失值的数据,如果一个属性缺失的数据过多,则删除该属性
对缺失值进行填补,可以填补固定值,平均值,和最有可能值, 最有可能值会利用到决策树,回归分析
噪声数据的处理
分箱技术 通过考察相邻数据来确定最终值,可以实现异常或者噪声数据的平滑处理
聚类技术
聚类技术是将数据集分组为类似数据组成的多个簇,聚类技术主要用于找出并清除哪些落在簇之外的数据(孤立点)这些数据被视为噪点,不是适合用于平滑数据,聚类分析也可以用作数据分析
回归技术
回归技术是通过发现两个相关变量之间的数据关系并寻找合适的两个变量之江的映射关系来平滑数据,即通过数学模型来预测下一个数据,包括线性回归和非线性回归
不一致数据的处理
使用相关资料进行修复数据,违反给定规则的数据根据实际情况可以运用知识工具进行修改,对于多个数据源集成处理时,不同数据源对某些含义相同的字段的编码规则可能存在差异此时需要对不同数据源的数据进行数据转化
异常数据的处理
特征工程
特征选择
考虑方面:特征是否发散、特征是否冗余、特征是否与分析结果相关
选择方法 过滤法、包装法、集成法
特征构建
特征构建是指从原始数据中人工构建新的特征
特征提取
特征提取是在原有的特征的基础上,自动构建新的特征,将原始特征转换成一组具有物理意义。统计意义。或者核的特征
主成分分析法
PCA是通过坐标轴转换,寻求数据分布的最优子空间,从而达到降维,去除数据间相关性的目的,
独立成分分析法
线性判别分析法
LDA的原理是将有标签的数据通过投影的方法,投影到更低的空间,使得投影后的点按类分配,相同类别的点投影以后更接近,不同类别的点投影以后距离较远