《R语言数据分析与挖掘实战》——3.3 R语言主要数据探索函数

简介:

本节书摘来自华章计算机《R语言数据分析与挖掘实战》一书中的第3章,第3.3节,作者 张良均,云伟标,王路,刘晓勇,更多章节内容可以访问云栖社区“华章计算机”公众号查看。

3.3 R语言主要数据探索函数

R提供了大量的与数据探索相关的函数,这些数据探索函数可大致分为统计特征函数与统计作图函数。本小节对R中主要的统计特征函数与统计作图函数进行介绍,并举例以方便理解。

3.3.1 统计特征函数

统计特征函数用于计算数据的均值、方差、标准差、分位数、相关系数、协方差等,这些统计特征能反映出数据的整体分布。本小节所介绍的统计特征函数如表3-7所示。

screenshot

(1)mean

功能:计算数据样本的算术平均数。

使用格式:
screenshot

计算样本X的均值n,样本X可为向量、矩阵或多维数组。

(2)exp(mean(log())

功能:计算数据样本的几何平均数。

使用格式:
screenshot

计算样本X的几何均值n,样本X可为向量、矩阵或多维数组。

(3)var

功能:计算数据样本的方差。

使用格式:
screenshot

计算样本X的方差v。若X为向量,则计算向量的样本方差。若X为矩阵,则v为X的各列向量的样本方差构成的行向量。

(4)sd

功能:计算数据样本的标准差。

使用格式:
screenshot

计算样本X的标准差,若样本X为向量,则计算向量的标准差。若X为矩阵,则s为X的各列向量的标准差构成的行向量。

(5)cor

功能:计算数据样本的相关系数矩阵。

使用格式:
screenshot

计算列向量x、y的相关系数矩阵R。其中,name和value的取值如表3-8所示。
screenshot

实例:计算两个列向量的相关系数,采用Spearman方法。

screenshot

(6)cov

功能:计算数据样本的协方差矩阵。

使用格式:
screenshot

计算样本X的协方差矩阵R。样本X可为向量或矩阵。当X为向量时,R表示X的方差。当X为矩阵时,cov(X)计算方差矩阵。
screenshot

函数等价于cov([x,y])。参数x、y为长度相等的列向量。

实例:计算20×5随机矩阵的协方差矩阵。

screenshot

(7)moment

功能:计算数据样本的指定阶中心矩。

使用格式:
screenshot

计算样本X的order阶次的中心矩m,参数order为正整数。样本X可为向量、矩阵或多维数组。

说明:一阶中心矩为0,二阶中心矩为用除数n得到的方差,其中n为向量X的长度或矩阵X的行数。使用此函数要加载e1071包。

实例:计算100个随机数的2阶中心矩。

screenshot

3.3.2 统计作图函数

通过统计作图函数绘制的图表可以直观地反映出数据及统计量的性质及其内在规律,如盒图可以表示多个样本的均值,误差条形图能同时显示下限误差和上限误差,最小二乘拟合曲线图能分析两变量间的关系。本小节所介绍的统计作图函数如表3-9所示。

screenshot

(1)barplot

功能:绘制简单条形图。

使用格式:

screenshot

绘制矩阵样本X的分类条形图,X是一个向量或者矩阵。其中,参数horiz是逻辑值,默认为FALSE,改成TRUE图形变为横向条形图,main、xlab、ylab分别表示图形标题、横轴和纵轴标题。

实例:绘制样本数据的条形图,样本由“A”、“B”、“C”三种类型的随机数据组成。绘制结果如图3-13所示。

screenshot

(2)pie

功能:绘制饼形图。

使用格式:
screenshot

绘制矩阵X中非负数据的饼形图。若X中非负元素和小于1,则函数仅画出部分的饼形图,且非负元素X(i,j)的值直接限定饼形图中扇形的大小;若X中非负元素和大于等于1,则非负元素X(i,j)代表饼形图中的扇形大小通过X(i,j)/Y的大小来决定,其中,Y为矩阵X中非负元素和。

实例:通过向量[1 3 1.5 4 1.5]画饼形图,并将第一部分分离出来。绘制结果如图3-14所示。

screenshot

(3)hist

功能:绘制二维条形直方图,可显示数据的分布情形。

使用格式:
screenshot

把向量X中的数值自动分组,各组距相等,条形图每一条的高度表示频率或者频数,默认freq=TRUE,即画出频数条形图,freq=FALSE时绘出频率条形图。

实例:绘制二维条形直方图,从1到999中随机抽取100个数,并对100取余数,得到100个1到99之间的随机数,保存在向量x中,对其绘制直方图。绘制结果如图3-15所示。

screenshot

(4)boxplot

功能:绘制样本数据的箱形图。

使用格式:
screenshot

绘制矩阵样本X的箱形图。其中,盒子的上、下四分位数和中值处有一条线段。箱形末端延伸出去的直线称为须,表示盒外数据的长度。如果在须外没有数据,则在须的底部有一点,点的颜色与须的颜色相同。其中,参数notch默认为FALSE,如果改为TRUE则绘制矩阵样本X的带刻槽的凹盒图。和别的绘图函数一样,也可以给horizontal赋值TRUE,使图形横过来。

实例:绘制样本数据的箱形图,样本由两组正态分布的随机数据组成。其中,一组数据均值为5,方差为2,另一组数据均值为7,方差为4,并且分别补充两个比较偏离均值的数,使图中可以出现离群点。绘制结果如图3-16所示。

screenshot

(5)plot

功能:绘制线性二维图、折线图、散点图。

使用格式:
screenshot

绘制Y对于X(即以X为横轴的二维图形),可以通过参数type指定绘制时图形的类型、样式,可以有“o”“l”“b”等,这三种分别表示散点、曲线和点线混合型。通过col参数可以设置多种颜色。

实例:在区间(0≤x≤2π)绘制一条蓝色的正弦曲线,绘制图形如图3-17所示。

screenshot

相关文章
|
1月前
|
自然语言处理 小程序 数据挖掘
数据分析实战-Python实现博客评论数据的情感分析
数据分析实战-Python实现博客评论数据的情感分析
89 0
|
2月前
|
数据采集 存储 数据挖掘
Python 爬虫实战之爬拼多多商品并做数据分析
Python爬虫可以用来抓取拼多多商品数据,并对这些数据进行数据分析。以下是一个简单的示例,演示如何使用Python爬取拼多多商品数据并进行数据分析。
|
2月前
|
数据采集 数据挖掘 API
主流电商平台数据采集API接口|【Python爬虫+数据分析】采集电商平台数据信息采集
随着电商平台的兴起,越来越多的人开始在网上购物。而对于电商平台来说,商品信息、价格、评论等数据是非常重要的。因此,抓取电商平台的商品信息、价格、评论等数据成为了一项非常有价值的工作。本文将介绍如何使用Python编写爬虫程序,抓取电商平台的商品信息、价格、评论等数据。 当然,如果是电商企业,跨境电商企业,ERP系统搭建,我们经常需要采集的平台多,数据量大,要求数据稳定供应,有并发需求,那就需要通过接入电商API数据采集接口,封装好的数据采集接口更方便稳定高效数据采集。
|
2月前
|
算法 数据挖掘
R语言——AVOCADO“(异常植被变化检测)算法(1990-2015数据分析)监测森林干扰和再生(含GEE影像下载代码)
R语言——AVOCADO“(异常植被变化检测)算法(1990-2015数据分析)监测森林干扰和再生(含GEE影像下载代码)
41 1
|
4天前
|
机器学习/深度学习 数据可视化 数据挖掘
用Python进行健康数据分析:挖掘医疗统计中的信息
【4月更文挑战第12天】Python在医疗健康数据分析中扮演重要角色,具备数据处理、机器学习、可视化及丰富生态的优势。基本流程包括数据获取、预处理、探索、模型选择与训练、评估优化及结果可视化。应用案例包括疾病预测、药物效果分析和医疗资源优化,例如使用RandomForestClassifier进行疾病预测,Logit模型分析药物效果,以及linprog优化医疗资源配置。
|
13天前
|
人工智能 监控 数据可视化
【Python】Python商业公司贸易业务数据分析可视化(数据+源码)【独一无二】
【Python】Python商业公司贸易业务数据分析可视化(数据+源码)【独一无二】
|
1月前
|
机器学习/深度学习 数据可视化 算法
从零到精通:学习这些R语言必学包成为数据分析高手!
从零到精通:学习这些R语言必学包成为数据分析高手!
34 0
|
1月前
|
存储 数据采集 数据挖掘
python数据分析——数据分类汇总与统计
数据分类汇总与统计是指将大量的数据按照不同的分类方式进行整理和归纳,然后对这些数据进行统计分析,以便于更好地了解数据的特点和规律。
55 1
|
1月前
|
存储 SQL 数据挖掘
python数据分析——数据的选择和运算
在数据分析中,数据的选择和运算是非常重要的步骤。数据选择和运算是数据分析中的基础工作,正确和高效的选择和运算方法对于数据分析结果的准确性和速度至关重要。
41 0
|
1月前
|
JSON 数据挖掘 数据格式
python数据分析——数据分析的数据的导入和导出
数据分析的数据的导入和导出是数据分析流程中至关重要的两个环节,它们直接影响到数据分析的准确性和效率。在数据导入阶段,首先要确保数据的来源可靠、格式统一,并且能够满足分析需求。这通常涉及到数据清洗和预处理的工作,比如去除重复数据、处理缺失值、转换数据类型等,以确保数据的完整性和一致性。
36 0