《R语言与数据挖掘最佳实践和经典案例》—— 1.3 数据集

简介:

本节书摘来自华章出版社《R语言与数据挖掘最佳实践和经典案例》一 书中的第1章,第1.3节,作者:(澳)Yanchang Zhao,更多章节内容可以访问云栖社区“华章计算机”公众号查看。

1.3 数据集

本节简单地介绍本书中将要使用到的数据集。

1.3.1 iris数据集

在许多的科研著作中都在iris数据集上做分类操作。该数据集由3种不同类型的鸢尾花的50个样本数据构成 [Frank and Asuncion,2010]。其中的一个种类与另外两个种类是线性可分离的,后两个种类是非线性可分离的。这个数据集包含了5个属性:
Sepal.Length(花萼长度),单位是cm。
Sepal.Width(花萼宽度),单位是cm。
Petal.Length(花瓣长度),单位是cm。
Petal.Width(花瓣宽度),单位是cm。
种类:Iris Setosa(山鸢尾)、Iris Versicolour(杂色鸢尾),以及Iris Virginica(维吉尼亚鸢尾)。

screenshot

1.3.2 Bodyfat数据集

Bodyfat数据集由mboost包[Hothorn et al.,2012]提供。该数据集包含71行,每一行代表一个客户的信息。数据集包含10列数值型数据。
age:年龄。
DEXfat:以DXA计算的体脂重,响应变量。
waistcirc:腰围。
hipcirc:臀围。
elbowbreadth:肘宽。
kneebreadth:膝宽。
anthro3a:三项人体测量的对数和。
anthro3b:三项人体测量的对数和。
anthro3c:三项人体测量的对数和。
anthro4:三项人体测量的对数和。
DEXfat的值可通过其他的变量预测得到。

screenshot

相关文章
|
9月前
|
算法 数据挖掘 数据库
R语言主成分PCA、决策树、boost预警模型在跨区域犯罪研究数据挖掘分析|数据分享
R语言主成分PCA、决策树、boost预警模型在跨区域犯罪研究数据挖掘分析|数据分享
|
9月前
|
数据可视化 数据挖掘
数据分享|R语言IMDb TOP250电影特征数据挖掘可视化分析受众偏好、排名、投票、评分(下)
数据分享|R语言IMDb TOP250电影特征数据挖掘可视化分析受众偏好、排名、投票、评分
|
9月前
|
数据可视化 算法 数据挖掘
数据分享|R语言IMDb TOP250电影特征数据挖掘可视化分析受众偏好、排名、投票、评分(上)
数据分享|R语言IMDb TOP250电影特征数据挖掘可视化分析受众偏好、排名、投票、评分
|
9月前
|
算法 数据挖掘 新能源
R语言k-prototype聚类新能源汽车行业上市公司分析混合型数据集(下)
R语言k-prototype聚类新能源汽车行业上市公司分析混合型数据集
|
9月前
|
SQL 算法 数据可视化
R语言k-prototype聚类新能源汽车行业上市公司分析混合型数据集(上)
R语言k-prototype聚类新能源汽车行业上市公司分析混合型数据集
|
9月前
|
机器学习/深度学习 算法 搜索推荐
数据分享|R语言谱聚类社会化推荐挖掘协同过滤电影社交网站Flixster数据集应用研究
数据分享|R语言谱聚类社会化推荐挖掘协同过滤电影社交网站Flixster数据集应用研究
|
9月前
|
机器学习/深度学习 数据可视化 Python
R语言使用逻辑回归Logistic、单因素方差分析anova、异常点分析和可视化分类iris鸢尾花数据集|数据分享
R语言使用逻辑回归Logistic、单因素方差分析anova、异常点分析和可视化分类iris鸢尾花数据集|数据分享
|
9月前
|
机器学习/深度学习 数据可视化 数据处理
数据分享|R语言逻辑回归(Logistic Regression)、回归决策树、随机森林信用卡违约分析信贷数据集
数据分享|R语言逻辑回归(Logistic Regression)、回归决策树、随机森林信用卡违约分析信贷数据集
|
9月前
|
数据挖掘
R语言预测期货波动率的实现:ARCH与HAR-RV与GARCH,ARFIMA模型比较
R语言预测期货波动率的实现:ARCH与HAR-RV与GARCH,ARFIMA模型比较
R语言预测期货波动率的实现:ARCH与HAR-RV与GARCH,ARFIMA模型比较
|
9月前
|
机器学习/深度学习 数据可视化 数据处理
R语言逻辑回归(Logistic Regression)、回归决策树、随机森林信用卡违约分析信贷数据集
R语言逻辑回归(Logistic Regression)、回归决策树、随机森林信用卡违约分析信贷数据集