《R语言数据挖掘:实用项目解析》——1.5 索引或切分数据框

本文涉及的产品
全局流量管理 GTM,标准版 1个月
公共DNS(含HTTPDNS解析),每月1000万次HTTP解析
云解析 DNS,旗舰版 1个月
简介:

本节书摘来自华章计算机《R语言数据挖掘:实用项目解析》一书中的第1章,第1.5节,作者[印度]普拉迪帕塔·米什拉(Pradeepta Mishra),译 黄芸,更多章节内容可以访问云栖社区“华章计算机”公众号查看。

1.5 索引或切分数据框

在处理一个有着大量观测记录的客户数据集时,需要根据一些筛选规则和有无放回取样来切分数据集。索引是根据一些逻辑条件从数据框中提取数据子集的过程。subset函数的功能与索引一样,可用于从数据框中提取元素。

image

上述代码的意思是:从audit数据集中选取那些性别为女且年龄超过65岁的观测记录。应该用哪个命令来提取基于这两条规则的audit数据子集呢?本例中有10条观测记录满足前面的条件,上面的代码中输出了数据框的行号。类似的结果也可以使用subset函数获得。这里不使用which 函数,而应使用subset函数,因为后者在传递多个条件参数时效率更高。让我们看看subset函数的使用方法:

image

subset函数中的附加参数使这个函数更为高效,因为它提供了仅从数据框中选取满足逻辑条件的特定列这个附加益处。

相关文章
|
9月前
|
SQL 数据可视化 算法
R语言公交地铁路线进出站数据挖掘网络图可视化
R语言公交地铁路线进出站数据挖掘网络图可视化
|
9月前
|
算法 数据挖掘 数据库
R语言主成分PCA、决策树、boost预警模型在跨区域犯罪研究数据挖掘分析|数据分享
R语言主成分PCA、决策树、boost预警模型在跨区域犯罪研究数据挖掘分析|数据分享
R语言笔记丨因子、数据框基础知识
R语言笔记丨因子、数据框基础知识
|
9月前
|
数据可视化 数据挖掘
数据分享|R语言IMDb TOP250电影特征数据挖掘可视化分析受众偏好、排名、投票、评分(下)
数据分享|R语言IMDb TOP250电影特征数据挖掘可视化分析受众偏好、排名、投票、评分
|
9月前
|
数据可视化 算法 数据挖掘
数据分享|R语言IMDb TOP250电影特征数据挖掘可视化分析受众偏好、排名、投票、评分(上)
数据分享|R语言IMDb TOP250电影特征数据挖掘可视化分析受众偏好、排名、投票、评分
R语言之数据框的合并
R语言之数据框的合并
255 1
R语言之数据框的合并
|
人工智能 数据挖掘 Linux
ChatGPT × R语言 丨实际数据分析过程中,AI能够带来哪些改变?数据框操作案例分享
ChatGPT × R语言 丨实际数据分析过程中,AI能够带来哪些改变?数据框操作案例分享
R语言-创建空数据框(Empty Data Frame )用于追加数据
本文分享了如何在R语言通过创建空数据框来实现追加数据的简单实现方法,以供参考
805 0
|
存储 移动开发 关系型数据库
R语言-rhdf5解析hdf5文件(.h5)展示文件组织结构和数据索引实现
本文简单示例了在R语言如何使用 `rhdf5` 软件包解析 .h5 文件的代码过程
663 0
|
存储 关系型数据库 数据挖掘
R语言-Chunk大型数据框与稀疏矩阵应对 as.matrix溢出异常 “problem too large”
本文提出一种在R里面将大型数据集通过分块的方式转换出 DataFrame和 SparseMatrix的方法,能有效避免内存溢出、程序崩溃等严重问题。
309 0