《R语言数据分析与挖掘实战》——3.3 R语言主要数据探索函数

简介:

本节书摘来自华章计算机《R语言数据分析与挖掘实战》一书中的第3章,第3.3节,作者 张良均,云伟标,王路,刘晓勇,更多章节内容可以访问云栖社区“华章计算机”公众号查看。

3.3 R语言主要数据探索函数

R提供了大量的与数据探索相关的函数,这些数据探索函数可大致分为统计特征函数与统计作图函数。本小节对R中主要的统计特征函数与统计作图函数进行介绍,并举例以方便理解。

3.3.1 统计特征函数

统计特征函数用于计算数据的均值、方差、标准差、分位数、相关系数、协方差等,这些统计特征能反映出数据的整体分布。本小节所介绍的统计特征函数如表3-7所示。

screenshot

(1)mean

功能:计算数据样本的算术平均数。

使用格式:
screenshot

计算样本X的均值n,样本X可为向量、矩阵或多维数组。

(2)exp(mean(log())

功能:计算数据样本的几何平均数。

使用格式:
screenshot

计算样本X的几何均值n,样本X可为向量、矩阵或多维数组。

(3)var

功能:计算数据样本的方差。

使用格式:
screenshot

计算样本X的方差v。若X为向量,则计算向量的样本方差。若X为矩阵,则v为X的各列向量的样本方差构成的行向量。

(4)sd

功能:计算数据样本的标准差。

使用格式:
screenshot

计算样本X的标准差,若样本X为向量,则计算向量的标准差。若X为矩阵,则s为X的各列向量的标准差构成的行向量。

(5)cor

功能:计算数据样本的相关系数矩阵。

使用格式:
screenshot

计算列向量x、y的相关系数矩阵R。其中,name和value的取值如表3-8所示。
screenshot

实例:计算两个列向量的相关系数,采用Spearman方法。

screenshot

(6)cov

功能:计算数据样本的协方差矩阵。

使用格式:
screenshot

计算样本X的协方差矩阵R。样本X可为向量或矩阵。当X为向量时,R表示X的方差。当X为矩阵时,cov(X)计算方差矩阵。
screenshot

函数等价于cov([x,y])。参数x、y为长度相等的列向量。

实例:计算20×5随机矩阵的协方差矩阵。

screenshot

(7)moment

功能:计算数据样本的指定阶中心矩。

使用格式:
screenshot

计算样本X的order阶次的中心矩m,参数order为正整数。样本X可为向量、矩阵或多维数组。

说明:一阶中心矩为0,二阶中心矩为用除数n得到的方差,其中n为向量X的长度或矩阵X的行数。使用此函数要加载e1071包。

实例:计算100个随机数的2阶中心矩。

screenshot

3.3.2 统计作图函数

通过统计作图函数绘制的图表可以直观地反映出数据及统计量的性质及其内在规律,如盒图可以表示多个样本的均值,误差条形图能同时显示下限误差和上限误差,最小二乘拟合曲线图能分析两变量间的关系。本小节所介绍的统计作图函数如表3-9所示。

screenshot

(1)barplot

功能:绘制简单条形图。

使用格式:

screenshot

绘制矩阵样本X的分类条形图,X是一个向量或者矩阵。其中,参数horiz是逻辑值,默认为FALSE,改成TRUE图形变为横向条形图,main、xlab、ylab分别表示图形标题、横轴和纵轴标题。

实例:绘制样本数据的条形图,样本由“A”、“B”、“C”三种类型的随机数据组成。绘制结果如图3-13所示。

screenshot

(2)pie

功能:绘制饼形图。

使用格式:
screenshot

绘制矩阵X中非负数据的饼形图。若X中非负元素和小于1,则函数仅画出部分的饼形图,且非负元素X(i,j)的值直接限定饼形图中扇形的大小;若X中非负元素和大于等于1,则非负元素X(i,j)代表饼形图中的扇形大小通过X(i,j)/Y的大小来决定,其中,Y为矩阵X中非负元素和。

实例:通过向量[1 3 1.5 4 1.5]画饼形图,并将第一部分分离出来。绘制结果如图3-14所示。

screenshot

(3)hist

功能:绘制二维条形直方图,可显示数据的分布情形。

使用格式:
screenshot

把向量X中的数值自动分组,各组距相等,条形图每一条的高度表示频率或者频数,默认freq=TRUE,即画出频数条形图,freq=FALSE时绘出频率条形图。

实例:绘制二维条形直方图,从1到999中随机抽取100个数,并对100取余数,得到100个1到99之间的随机数,保存在向量x中,对其绘制直方图。绘制结果如图3-15所示。

screenshot

(4)boxplot

功能:绘制样本数据的箱形图。

使用格式:
screenshot

绘制矩阵样本X的箱形图。其中,盒子的上、下四分位数和中值处有一条线段。箱形末端延伸出去的直线称为须,表示盒外数据的长度。如果在须外没有数据,则在须的底部有一点,点的颜色与须的颜色相同。其中,参数notch默认为FALSE,如果改为TRUE则绘制矩阵样本X的带刻槽的凹盒图。和别的绘图函数一样,也可以给horizontal赋值TRUE,使图形横过来。

实例:绘制样本数据的箱形图,样本由两组正态分布的随机数据组成。其中,一组数据均值为5,方差为2,另一组数据均值为7,方差为4,并且分别补充两个比较偏离均值的数,使图中可以出现离群点。绘制结果如图3-16所示。

screenshot

(5)plot

功能:绘制线性二维图、折线图、散点图。

使用格式:
screenshot

绘制Y对于X(即以X为横轴的二维图形),可以通过参数type指定绘制时图形的类型、样式,可以有“o”“l”“b”等,这三种分别表示散点、曲线和点线混合型。通过col参数可以设置多种颜色。

实例:在区间(0≤x≤2π)绘制一条蓝色的正弦曲线,绘制图形如图3-17所示。

screenshot

相关文章
|
5月前
|
数据采集 数据可视化 数据挖掘
用 Excel+Power Query 做电商数据分析:从 “每天加班整理数据” 到 “一键生成报表” 的配置教程
在电商运营中,数据是增长的关键驱动力。然而,传统的手工数据处理方式效率低下,耗费大量时间且易出错。本文介绍如何利用 Excel 中的 Power Query 工具,自动化完成电商数据的采集、清洗与分析,大幅提升数据处理效率。通过某美妆电商的实战案例,详细拆解从多平台数据整合到可视化报表生成的全流程,帮助电商从业者摆脱繁琐操作,聚焦业务增长,实现数据驱动的高效运营。
|
5月前
|
数据采集 数据可视化 搜索推荐
Python数据分析全流程指南:从数据采集到可视化呈现的实战解析
在数字化转型中,数据分析成为企业决策核心,而Python凭借其强大生态和简洁语法成为首选工具。本文通过实战案例详解数据分析全流程,涵盖数据采集、清洗、探索、建模、可视化及自动化部署,帮助读者掌握从数据到业务价值的完整技能链。
628 0
|
12月前
|
数据采集 数据可视化 数据挖掘
Pandas数据应用:天气数据分析
本文介绍如何使用 Pandas 进行天气数据分析。Pandas 是一个强大的 Python 数据处理库,适合处理表格型数据。文章涵盖加载天气数据、处理缺失值、转换数据类型、时间序列分析(如滚动平均和重采样)等内容,并解决常见报错如 SettingWithCopyWarning、KeyError 和 TypeError。通过这些方法,帮助用户更好地进行气候趋势预测和决策。
360 71
|
4月前
|
SQL 数据挖掘 BI
数据分析的尽头,是跳出数据看数据!
当前许多企业在数据分析上投入大量资源,却常陷入“数据越看越细,业务越看越虚”的困境。报表繁杂、指标众多,但决策难、行动少,分析流于形式。真正有价值的数据分析,不在于图表多漂亮,而在于能否带来洞察、推动决策、指导行动。本文探讨如何跳出数据、回归业务场景,实现数据驱动的有效落地。
|
10月前
|
SQL 人工智能 数据可视化
数据团队必读:智能数据分析文档(DataV Note)五种高效工作模式
数据项目复杂,涉及代码、数据、运行环境等多部分。随着AI发展,数据科学团队面临挑战。协作式数据文档(如阿里云DataV Note)成为提升效率的关键工具。它支持跨角色协同、异构数据处理、多语言分析及高效沟通,帮助创建知识库,实现可重现的数据科学过程,并通过一键分享报告促进数据驱动决策。未来,大模型AI将进一步增强其功能,如智能绘图、总结探索、NLP2SQL/Python和AutoReport,为数据分析带来更多可能。
600 142
|
消息中间件 数据挖掘 Kafka
Apache Kafka流处理实战:构建实时数据分析应用
【10月更文挑战第24天】在当今这个数据爆炸的时代,能够快速准确地处理实时数据变得尤为重要。无论是金融交易监控、网络行为分析还是物联网设备的数据收集,实时数据处理技术都是不可或缺的一部分。Apache Kafka作为一款高性能的消息队列系统,不仅支持传统的消息传递模式,还提供了强大的流处理能力,能够帮助开发者构建高效、可扩展的实时数据分析应用。
749 5
|
11月前
|
SQL 数据可视化 大数据
从数据小白到大数据达人:一步步成为数据分析专家
从数据小白到大数据达人:一步步成为数据分析专家
597 92
|
12月前
|
存储 数据采集 数据可视化
Pandas数据应用:电子商务数据分析
本文介绍如何使用 Pandas 进行电子商务数据分析,涵盖数据加载、清洗、预处理、分析与可视化。通过 `read_csv` 等函数加载数据,利用 `info()` 和 `describe()` 探索数据结构和统计信息。针对常见问题如缺失值、重复记录、异常值等,提供解决方案,如 `dropna()`、`drop_duplicates()` 和正则表达式处理。结合 Matplotlib 等库实现数据可视化,探讨内存不足和性能瓶颈的应对方法,并总结常见报错及解决策略,帮助提升电商企业的数据分析能力。
490 73
|
10月前
|
SQL JSON 数据可视化
基于 DIFY 的自动化数据分析实战
本文介绍如何使用DIFY搭建数据分析自动化流程,实现从输入需求到查询数据库、LLM分析再到可视化输出的全流程。基于经典的employees数据集和DIFY云端环境,通过LLM-SQL解析、SQL执行、LLM数据分析及ECharts可视化等模块,高效完成数据分析任务。此方案适用于人力资源分析、薪酬管理等数据密集型业务,显著提升效率并降低成本。
13872 16
|
10月前
|
存储 分布式计算 大数据
基于阿里云大数据平台的实时数据湖构建与数据分析实战
在大数据时代,数据湖作为集中存储和处理海量数据的架构,成为企业数据管理的核心。阿里云提供包括MaxCompute、DataWorks、E-MapReduce等在内的完整大数据平台,支持从数据采集、存储、处理到分析的全流程。本文通过电商平台案例,展示如何基于阿里云构建实时数据湖,实现数据价值挖掘。平台优势包括全托管服务、高扩展性、丰富的生态集成和强大的数据分析工具。