开发者社区> 学堂小助手> 正文

R 实列—预测海藻数量之数据预处理| 学习笔记

简介: 快速学习 R 实列—预测海藻数量之数据预处理
+关注继续查看

开发者学堂课程【大数据之 R 语言速成与实战R 实列—预测海藻数量之数据预处理】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/363/detail/4345


R 实列—预测海藻数量之数据预处理

 

目录

一、数据缺失处理

二、处理缺失值常见的的策略

三、观察缺失值

四、如何处理缺失值

 

一、 数据缺失处理

在许多水样中,一些变量含有缺失值。这种情形在现实问题中非常普遍这会导致不能处理缺失值的分析方法无法应用。

 

二、 处理缺失值通常有以下几种常见的策略:

1、见含有缺失值的记录剔除

2、根据变量之间的相关关系填补缺失值;

3、根据案列之间的相似性填补缺失值


三、 观察缺失值

导入数据 :> 1ibrary(DMwR)

L oading required package: lattice

L oading required package: grid

warning message :

package ‘DMwR’was built under R version 3.2.5x

通过函数:agae[lcomplete. cases(algae),]|可以把含有缺失值的记录提取出来

含有是十六条缺失值

含有多缺失值的寻找方法用函数:manyNAs(algae)可以反馈出来:【1】 02 19判断缺失值多少:manyNAs(algae,0.2)中0.2的意思如果他的属性缺失的属性超过所有属性的百分之二十我们就能把他提取出来.

 

四、如何处理这些缺失值

1、把有缺失值的记录删除,分析方法就不存在报错

2、根据变量之间的相关关系来填补缺失值,列如第一个字段和第二个字段他们的相关性比较高达到 1,我们就可能找到他们的相关函数 比如 a1 是齐全的 a2 是缺失的 我们就可以通 a1 相关函数计算出 a2

3、案例之间的相似性来填补

实例:

方法一:

对计数值多的

后面输入:> X <- algae

> y <. OITLCXJ

1-.211 17.47

得到的y就是没有缺失值

改为> y[! complete. cases (y) 得到就是不含缺失值的(这种就是直接删除)

方法二

先找相关变量关系:输入 cor(algae[,4:18] , , use=”comp lete. obs"|可以得到第四个字和第十八个字之间的相关关系

如果结果看不清楚就可以输入:> symnum(cor(a1gae[

4:18],use="complete. obs")),使结果可视化

 相关性就变得特别高

大概看出 po4 与 opo4 属性相似最近接1 就可以用一个推另一个

获取他们的相关性:

> x <- algae [-manyNAs (algae), ]

 1m(P04~oP04,data=x)

公式:PO4=42.897+1.293xOPO4,

以计算结果

方法三

两百条记录比较 求他们距离值,比如采取欧式句,相同的字段做减法再开平方根,可以得出不同的平记录数之间的差值 ,把差值最小的依次排序得到最相近的十条记录,有些记录不齐全的,不存在缺失值, 有些是有少缺失,那么我们就把有缺失值的所在的字段,列外的一些存在的值求他们的中位数。就是某些字段他们之间相似就可以来填补缺失值

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
ML之SVM:利用SVM算法对手写数字图片识别数据集(PCA降维处理)进行预测并评估模型(两种算法)性能
ML之SVM:利用SVM算法对手写数字图片识别数据集(PCA降维处理)进行预测并评估模型(两种算法)性能
47 0
机器学习:数据特征预处理缺失值处理
机器学习:数据特征预处理缺失值处理
28 0
Advanced Sci | 打破生成式深度学习限制:低量数据下的“one-shot”药设计法
Advanced Sci | 打破生成式深度学习限制:低量数据下的“one-shot”药设计法
21 0
文本分析和处理 awk|学习笔记
快速学习文本分析和处理 awk
49 0
Angular内部对template的处理学习笔记
Angular内部对template的处理学习笔记
19 0
JAVA中jdbc连接数据库 sql注入与PrepareStatement预处理
JAVA中jdbc连接数据库 sql注入与PrepareStatement预处理
16 0
预处理的原理|学习笔记
快速学习预处理的原理
104 0
时序数据的数据预处理
最近在读《数据挖掘》,其中关于数据预览和预处理(preprocessing)的内容没有介绍时序数据的处理,但这恰是很重要的应用场景。例如这道捕鱼题https://tianchi.aliyun.com/competition/entrance/231768/information我将根据书中和网络上找到的资料,尝试去清理其中的数据,并将思路记录下来,以备后查。
1460 0
11月26日云栖精选夜读 | 机器学习高质量数据集大合辑(附链接)
在机器学习中,寻找数据集也是非常重要的一步。质量高或者相关性高的数据集对模型的训练是非常有帮助的。 那么用于机器学习的开放数据集有哪些呢?我们给大家推荐一份高质量的数据集,这些数据集或者涵盖范围广泛(比如 Kaggle),或者非常细化(比如自动驾驶汽车的数据)。
2817 0
1783
文章
0
问答
来源圈子
更多
技术图谱:由专家组参与技术图谱的绘制与编写,知识与实践的结合让开发者们掌握学习路线与逻辑,快速提升技能 电子书:电子书由阿里内外专家打造,供开发者们下载学习,更与课程相结合,使用户更易理解掌握课程内容 训练营:学习训练营 深入浅出,专家授课,带领开发者们快速上云 精品课程:汇集知识碎片,解决技术难题,体系化学习场景,深入浅出,易于理解 技能自测:提供免费测试,摸底自查 体验实验室:学完即练,云资源免费使用
+ 订阅
文章排行榜
最热
最新
相关电子书
更多
JS零基础入门教程(上册)
立即下载
性能优化方法论
立即下载
手把手学习日志服务SLS,云启实验室实战指南
立即下载