全网最快入门———R语言机器学习03

简介: R 语言是为数学研究工作者设计的一种数学编程语言,主要用于统计分析、绘图、数据挖掘。 机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。

R 语言是为数学研究工作者设计的一种数学编程语言,主要用于统计分析、绘图、数据挖掘。 机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。

这是我们入门学习的第三节课了,同学们对笔记有什么不明白的地方可以在评论区羡慕留言

缺失数据

缺失数据的分类:

在R中,用NA代表缺失值,NA是不可用的意思,用于存储缺失信息,这里缺失值NA表示没有,但注意不一定就是0,NA是不知道是多少,也可能是0,也可能是任何值,缺失值和值为零是完全不同的。

但是有时候NA值的缺失会导致数据计算出现问题:

所以此时我们需要剔除NA值,可以通过一些函数的na.rm选项参数剔除

但是计算平均值时是以50个总数来计算还是49个总数来计算呢,我们来验证一下这个问题:

说明是将NA值剔除之后求平均值。

可以在前期数据处理的时候就检查数据集是否存在缺失值,来进行逻辑测试,我们来测试一下VIM包中的sleep数据集:

使用is.na()函数来测试一下数据集

可以使用colsums()和rowsums()计算每一行的缺失值数目

如果想去除掉数据集中的缺失值,形成一个新的函数,则可以使用na.omit()函数:

使用na.omit()函数处理数据框,通常是直接删除缺失的行或者列

但是这样处理有一个问题,就是当缺失值超过一半的时候,会对分析结果造成很大的影响,所以R中有很多处理缺失值的办法:

其他缺失数据:

缺失数据NaN,代表不可能的值

Inf表示无穷,分为正无穷Inf和负无穷Inf,代表无穷大或者无穷小。

字符串

nchar()函数可以用来统计字符串的长度:

Length()返回向量中元素的个数,而nchar返回每个元素字符串的个数:

Paste()函数用于粘贴字符串,将多个字符串合并为一个,默认使用空格分割,也可以通过sep选项参数来设置分隔符

向量与字符串的连接是向量和字符串分别连接,例如:

Substr()函数用于提取字符串,函数的参数分别是一个原始的字符串,一个起始点和一个结束点,返回值是起始点和结束点之间的字符串。

然后使用toupper()函数便可以将单词大写,tolower()可以转换为小写。

Grep()函数可以用于查找字符串:

表示与第二个位置上的字符串匹配上了,如果fixed参数为F,则表示支持正则表达式,那么‘A+’表示匹配一到正无穷个字符A,那么“AC”也会入选。

Match()函数可以进行字符串匹配

Strsplit()可进行字符串的分割,这个函数需要两个参数,字符串和分割符:

但是这个函数返回的是一个列表,而不是向量。

日期与时间

时间序列分析:

对时间序列的描述

利用前面的结果进行预测

“ts”是time series的简称,代表时间序列数据。

在R中,日期数据别单独归为一个date类,我们可以使用sys.date()函数查看当前系统的时间

在R中可以使用as.date()函数数据转换为日期数据,使用format选项参数决定外观。

比如哪部分作为年,哪部分作为月

也可以使用seq()函数创建连续的时间点:

要使用as.date()系统才会当做时间数据进行处理

使用ts()函数可以把向量转化为时间序列数据:

相关文章
|
1月前
|
机器学习/深度学习 开发者 异构计算
机器学习入门-Colab环境
Google Colab(Colaboratory)是一个免费的云端环境,旨在帮助开发者和研究人员轻松进行机器学习和数据科学工作。它提供了许多优势,使得编写、执行和共享代码变得更加简单和高效。Colab在云端提供了预配置的环境,可以直接开始编写代码,并且提供了免费的GPU和TPU资源,这对于训练深度学习模型等计算密集型任务非常有帮助,可以加速模型训练过程。
32 0
|
3月前
|
机器学习/深度学习 数据采集 数据可视化
机器学习入门----线性回归实验记录
机器学习入门----线性回归实验记录
48 0
|
5天前
|
机器学习/深度学习 数据采集 算法
Python中的机器学习入门:从数据预处理到模型评估
Python中的机器学习入门:从数据预处理到模型评估
|
22天前
|
机器学习/深度学习 数据挖掘 程序员
深入理解Python协程:提升并发编程效率基于Python的机器学习入门:从理论到实践
本文旨在探讨Python协程(Coroutine)的内部机制及其在并发编程中的应用。区别于传统的线程和进程,协程提供了一种更轻量级、高效的并发编程模式。通过深入分析协程的工作原理,本文将展示如何利用协程优化程序性能,实现高效的异步任务处理。我们将通过实例探讨协程的创建、事件循环的管理、以及与异步IO的集成,为读者提供一套完整的协程应用方案。此外,本文还将对比协程与其他并发模型(如多线程和多进程)的优劣,帮助读者全面理解协程在现代编程中的重要性。 在本文中,我们将深入探讨机器学习的核心概念,并通过Python实现其基础应用。不同于传统的技术文章摘要,我们希望通过一个故事性的引入,让读者感受到
|
27天前
|
机器学习/深度学习 人工智能 算法
机器学习入门知识
机器学习入门知识
139 0
|
3月前
|
机器学习/深度学习 人工智能 算法
【机器学习基础】机器学习入门(2)
【机器学习基础】机器学习入门(2)
26 0
|
3月前
|
机器学习/深度学习 人工智能 搜索推荐
【机器学习基础】机器学习入门(1)
【机器学习基础】机器学习入门(1)
48 0
|
1月前
|
机器学习/深度学习 算法 数据挖掘
讲解机器学习中的 K-均值聚类算法及其优缺点。
讲解机器学习中的 K-均值聚类算法及其优缺点。
|
1月前
|
机器学习/深度学习 算法 数据挖掘
机器学习中的 K-均值聚类算法及其优缺点
机器学习中的 K-均值聚类算法及其优缺点
107 0
|
1月前
|
机器学习/深度学习 分布式计算 算法
Spark中的机器学习库MLlib是什么?请解释其作用和常用算法。
Spark中的机器学习库MLlib是什么?请解释其作用和常用算法。
16 0

相关产品