R 包的使用、结果的重用、如何处理大数据集|学习笔记

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 快速学习 R 包的使用、结果的重用、如何处理大数据集。

开发者学堂课程【R 语言编程基础R 包的使用、结果的重用、如何处理大数据集】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/564/detail/7714


R 包的使用、结果的重用、如何处理大数据集

 

内容介绍

R 包的使用方法

结果的重用

R 如何处理大数据集

 

一、R 包的使用方法

R 的包 ( Package )

1、目前有超过7000个称为包( package)的用户贡献模块可供使用,可以从http://cran.r-project.org/web/packages下载。目前 R cran 可以获取的包已经达到7689也可以有选择的下载它

2、R 自带了一系列默认包(包括 base、datasets、 graphics、 methods 等等) ,它们提供了种类繁多的默认函数和数据集。可以用这些函数对数据集进行操作以及学习和使用R的功能

3、包的安装和使用当把 R 安装之后如果想看当前环境提供哪些命令可以通过 library 命令进行查看可以看到当前使用的包因为电脑里面安装了两个包所以它会显示在这个版本的里面有哪些包在另一个版本的里面有哪些包

(1)在实际的应用过程中如果想安装一些新的包如何进行安装呢

比如想看一个包可以用 help 加上包名的方式查看包的一些基本的信息也就是在 library 下看到的 base输入命令 help (package= "base "),R 就会从当前机器上面的 library base下找到 base 包的主页可以看到函数的描述等等

(2)要想安装新的包包名叫 car得到以下结果说明当前环境没有安装 car 这个包

image.png

安装包的命令如下注意要加双引号如果电脑是联网的install 加包名R 会自动上网上的相关的迹象里面找包进行下载安装

install. packages ( "car"

它会给提示选哪一个 cran 迹象选择 chinabejing 4)[https]进行安装

安装包时需要需要一些时间具体的时间是根据当前的网速和机器执行的速度输入 help (package= "car"查看包的相关信息这时就可以查到 car 的一些信息car 里面提供了很多函数可以进到 car 包里面看它的一些基本信息包括 car 是什么版本什么时间发布的

image.png

(3)现在已经把 car 包加入到目前的环境中现在该如何使用包里面的函数比如在 car 中有一个 some 函数可以查看一下现在是否可以直接用它它出现报错,object "some " not found,也就是 some 它没有找到使用 librarycar把已经安装好的 car 包给导入到当前环境中再输入 some就会有这个函数有它一些基本的描述

function(x,....)

UseMethod ("some ")

<bytecode: 0x1131cfb8> ,

< environment: namespace : car>

如果 car 包有更新可以使用手动的方式输入 update.package(),使用这个命令将所有包进行更新

 

二、结果的重用

1、将一个函数的输出作为其他函数的输入,R 非常实用的特点是分析的输出结果可以非常轻松的进行保存并且可以作为进一步分析的输入进行使用

2、通过 R 中已经安装好的数据集为例这个数据集是汽车数据的数据集叫 mtcaes使用 head命令head 命令是输出这个数据集前面6条的数据集前面是汽车的型号

Mazda RX4

Mazda RX4 Wag

Datsun 71 0

Hornet 4 Drive

Hornet Sportabout

Valiant

有很多字段和属性在这些属性里只关注两个属性一个是  wt就是位置汽车车身的重量mpg 是每加仑行驶的英里数一加仑的汽油可以使汽车行驶多长的距离因为汽车使用一定量的汽油能行驶多远跟它的发动机有一定的关系但是其中很重要的原因是车身的重量如果车身重量如果车越重使一定量的汽油行驶的距离越少所以做一个线性回归车身重量和每加仑行驶的英里数之间的关系

3、输入 lm 命令每加仑行驶的英里数对应做一个车重的线性关系得到结果它们直接有一个相关性相关度是一个负的值车身的重量和每加仑行驶的英里数它们之间是负相关的

lm (mpg~wt ,data-mtcars )

Call:

lm(formula = mpg ~ wt, data = mtcars )

Coefficients :

(Intercept)  wt

37.285   -5.344

4、现在R里面想做的功能是经常把它的输出进行保存或者对结果进行重用如何对刚才所做的线性结果做一个重用刚才的命令操作它只会显示在屏幕上面不会保存通常使用一个变量进行保存比如输入 result lm (mpg~wt,data-mtcars )进行保存这样就把结果保存在 result 里面可以通过一个语句进行总结查看 summary (result )当把线性回归操作的结果保存到 result 再对结果进行重用时就可以得到更多的信息比如踩踏值p值关于统计相关的数值对于这个结果也可以用作图进行画出输入 plotresult可以得到画图

image.png

这些图就是统计方面比较专业的一些图

只需要知道这个结果就可以做进一步的汇总分析使用

5、result 里面存储的是线性回归后得到的一些模型如果输入一组汽车的重量值可以使用 predict 函数比如自己生成新的数据集 predict (result ,mynewdata),mynewdata 包括汽车的重量就可以根据刚才得到的线性回归预测出汽车重量它们有可能可以行驶的英里数这就是线性回归的功能数据集如何去创建呢可以使用集成的重量值自己输入几个重量值得出每英里汽油的使用量比较实际的结果有多大的差距或者预测的效果是如何的

 

三、R 如何处理大数据集

1、R 所有的预测都是基于内存的所以每做一个操作都需要把数据导入到内存中再进行处理对于一些很大的数据集已经达到了 gb 级别或者 tb 级别一般的电脑或者服务器它都不具备这么大的内存这样就给 R 带来很多不方便但是R还是可以处理大数据集的

2、专门的用于大数据的分析包,如 Im()是做线性拟合的函数,而 biglm()则能以内存高效的方式实现大型数据的线性模型拟合因为 R 是基于内存的如果 R 数据装不下可以把一部分数据放在 e 盘中通过其他的一些操作对硬盘上的数据进行高效的处理这就是 R 处理大数据的一种方式提供专门用于大数据的分析包其他的分析包也可以上网上找一找

3、R 与大数据处理平台的结合,如 RHadoop业界用的比较多的开源的大数据处理和管理平台相应的像 R 的一些开发者提供了 RHadoop 当把 RHadoop 包安装完后就可以使用 R 直接去调用 RHadoop 上面的数据进行处理也就是海量的数据进行预处理后可以在 RHadoop 的平台上进行处理处理完后得到比较小的数据集后又可以把数据集放到R 的数据集中用功能函数对它进行挖掘和分析、 RHive 是基于 RHadoop 之上的查询语句可以将查询语句转化成可以在 RHadoop 平台上运行的 mapreduce 语句这就是 RHive 实现的功能也会提供 RHipe 接口RHive进行结合实现这种大规模数据集 result 的查询语句

4、这些功能就是 R 可以进行处理大数据集的方法

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps&nbsp;
相关文章
|
6月前
|
SQL 分布式计算 大数据
Python+大数据学习笔记(一)
Python+大数据学习笔记(一)
73 0
|
6月前
|
大数据 Linux 网络安全
大数据开发工程师基本功修炼之史上最全Linux学习笔记(建议)
大数据开发工程师基本功修炼之史上最全Linux学习笔记(建议)
184 0
|
6月前
|
Java 数据库连接 数据库
Java大数据开发工程师__Spring学习笔记(待更新)
Java大数据开发工程师__Spring学习笔记(待更新)
54 1
|
6月前
|
关系型数据库 MySQL 大数据
大数据开发工程师基本功修炼之Linux学习笔记(四)
大数据开发工程师基本功修炼之Linux学习笔记(四)
136 1
|
6月前
|
大数据 Linux 开发工具
大数据开发工程师基本功修炼之Linux学习笔记(三)
大数据开发工程师基本功修炼之Linux学习笔记(三)
100 0
|
6月前
|
大数据 Java Linux
大数据开发工程师基本功修炼之Linux学习笔记(二)
大数据开发工程师基本功修炼之Linux学习笔记(二)
113 0
|
大数据
数据治理专业认证CDMP学习笔记(思维导图与知识点)- 第14章大数据与数据科学篇
数据治理专业认证CDMP学习笔记(思维导图与知识点)- 第14章大数据与数据科学篇
110 0
|
SQL 运维 大数据
大数据架构&运维篇(二)| 学习笔记
快速学习大数据架构&运维篇。
大数据架构&运维篇(二)| 学习笔记
|
存储 SQL 资源调度
大数据架构&运维篇(一)| 学习笔记
快速学习大数据架构&运维篇。
大数据架构&运维篇(一)| 学习笔记
|
存储 分布式计算 监控
大数据 SRE 体系能力建设(二)| 学习笔记
快速学习大数据 SRE 体系能力建设。
大数据 SRE 体系能力建设(二)| 学习笔记

热门文章

最新文章

下一篇
无影云桌面