R 文本数据输入read.table(),scan(), 如何使用自带测试数据集合package:datasets

简介:
read.table从文件读取数据,输出数据框。
格式要求
第一行为数据框的name,第二行第一列为行号,其他列为数据。
Input file form with names and row labels:

     Price    Floor     Area   Rooms     Age  Cent.heat
01   52.00    111.0      830     5       6.2      no
02   54.75    128.0      710     5       7.5      no
03   57.50    101.0     1000     5       4.2      no
04   57.50    131.0      690     6       8.8      no
05   59.75     93.0      900     5       1.9     yes
...

> HousePrice <- read.table("houses.data")


如果第二行的行号省略,需要使用参数header=TRUE。
Input file form without row labels:

Price    Floor     Area   Rooms     Age  Cent.heat
52.00    111.0      830     5       6.2      no
54.75    128.0      710     5       7.5      no
57.50    101.0     1000     5       4.2      no
57.50    131.0      690     6       8.8      no
59.75     93.0      900     5       1.9     yes
...

HousePrice <- read.table("houses.data", header=TRUE)


scan()从文件读取数据,输出指定类型。
第二个参数为一个dummy类型,例如输出到列表。

inp <- scan("input.dat", list("",0,0))
label <- inp[[1]]; x <- inp[[2]]; y <- inp[[3]]

或者可以为dummy列表指定name。
inp <- scan("input.dat", list(id="", x=0, y=0))
label <- inp$id; x <- inp$x; y <- inp$y

dummy类型为数值类型,输出到一个向量,同时使用matrix构造一个矩阵。
X <- matrix(scan("light.dat", 0), ncol=5, byrow=TRUE)


R还内置了很多测试数据集合,在package:datasets包里面。
可以使用attach将这个包加载到搜索路径中以供使用。
默认可能已经绑定了,

> search()
[1] ".GlobalEnv"        "package:stats"     "package:graphics" 
[4] "package:grDevices" "package:utils"     "package:datasets" 
[7] "package:methods"   "Autoloads"         "package:base"     

使用以下方法可以查看这个包中的对象:
> ls(6)
> ls('package:datasets')
> objects(6)
> objects('package:datasets')
  [1] "ability.cov"           "airmiles"              "AirPassengers"        
  [4] "airquality"            "anscombe"              "attenu"               
  [7] "attitude"              "austres"               "beaver1"              
 [10] "beaver2"               "BJsales"               "BJsales.lead"         
 [13] "BOD"                   "cars"                  "ChickWeight"          
 [16] "chickwts"              "co2"                   "CO2"                  
 [19] "crimtab"               "discoveries"           "DNase"                
 [22] "esoph"                 "euro"                  "euro.cross"           
 [25] "eurodist"              "EuStockMarkets"        "faithful"             
 [28] "fdeaths"               "Formaldehyde"          "freeny"               
 [31] "freeny.x"              "freeny.y"              "HairEyeColor"         
 [34] "Harman23.cor"          "Harman74.cor"          "Indometh"             
 [37] "infert"                "InsectSprays"          "iris"                 
 [40] "iris3"                 "islands"               "JohnsonJohnson"       
 [43] "LakeHuron"             "ldeaths"               "lh"                   
 [46] "LifeCycleSavings"      "Loblolly"              "longley"              
 [49] "lynx"                  "mdeaths"               "morley"               
 [52] "mtcars"                "nhtemp"                "Nile"                 
 [55] "nottem"                "npk"                   "occupationalStatus"   
 [58] "Orange"                "OrchardSprays"         "PlantGrowth"          
 [61] "precip"                "presidents"            "pressure"             
 [64] "Puromycin"             "quakes"                "randu"                
 [67] "rivers"                "rock"                  "Seatbelts"            
 [70] "sleep"                 "stack.loss"            "stack.x"              
 [73] "stackloss"             "state.abb"             "state.area"           
 [76] "state.center"          "state.division"        "state.name"           
 [79] "state.region"          "state.x77"             "sunspot.month"        
 [82] "sunspot.year"          "sunspots"              "swiss"                
 [85] "Theoph"                "Titanic"               "ToothGrowth"          
 [88] "treering"              "trees"                 "UCBAdmissions"        
 [91] "UKDriverDeaths"        "UKgas"                 "USAccDeaths"          
 [94] "USArrests"             "USJudgeRatings"        "USPersonalExpenditure"
 [97] "uspop"                 "VADeaths"              "volcano"              
[100] "warpbreaks"            "women"                 "WorldPhones"          
[103] "WWWusage"   

使用测试数据:
例如uspop是一个时间序列

> uspop
Time Series:
Start = 1790 
End = 1970 
Frequency = 0.1 
 [1]   3.93   5.31   7.24   9.64  12.90  17.10  23.20  31.40  39.80  50.20
[11]  62.90  76.00  92.00 105.70 122.80 131.70 151.30 179.30 203.20


解绑之后,就不能直接使用这里面的对象了。
> detach('package:datasets')

使用data()函数也可以查看包中的测试数据对象。
> data()
Data sets in package ‘datasets’:

AirPassengers           Monthly Airline Passenger Numbers 1949-1960
BJsales                 Sales Data with Leading Indicator
BJsales.lead (BJsales)
                        Sales Data with Leading Indicator
BOD                     Biochemical Oxygen Demand
......


查看所有已安装的包的测试数据:
> data(package = .packages(all.available = TRUE))
Data sets in package ‘boot’:

acme                    Monthly Excess Returns
aids                    Delay in AIDS Reporting in England and Wales
aircondit               Failures of Air-conditioning Equipment
aircondit7              Failures of Air-conditioning Equipment
amis                    Car Speeding and Warning Signs
aml                     Remission Times for Acute Myelogenous Leukaemia
......


从其他包导入测试数据:
data(package="rpart")
data(Puromycin, package="datasets")

或者使用library加载包后,测试数据会自动加载到搜索路径。

[参考]
目录
相关文章
408王道计算机组成原理强化——输入输出系统大题(I/O)
408王道计算机组成原理强化——输入输出系统大题(I/O)
550 1
408王道计算机组成原理强化——输入输出系统大题(I/O)
|
机器学习/深度学习 传感器 数据采集
机器学习赋能制造业:预测性维护、质量控制和智能物流优化
制造业借助机器学习和深度学习提升效率,通过预测性维护避免设备故障,利用质量控制模型检测产品缺陷,及运用智能物流优化降低运输成本。示例代码包括基于LSTM的设备故障预测和随机森林分类器的质量控制模型。这些技术革新生产流程,提高效率,降低成本,增强企业竞争力。
|
分布式计算 Hadoop 大数据
【大数据开发技术】实验05-HDFS目录与文件的创建删除与查询操作
【大数据开发技术】实验05-HDFS目录与文件的创建删除与查询操作
359 0
|
缓存 关系型数据库 MySQL
MySQL并发支撑底层Buffer Pool机制详解
【10月更文挑战第18天】在数据库系统中,磁盘IO操作是性能瓶颈之一。为了提高数据访问速度,减少磁盘IO,MySQL引入了缓存机制。其中,Buffer Pool是InnoDB存储引擎中用于缓存磁盘上的数据页和索引页的内存区域。通过缓存频繁访问的数据和索引,Buffer Pool能够显著提高数据库的读写性能。
520 2
|
Linux 数据安全/隐私保护
在Linux中,什么是文件权限?什么是rwx权限模型?
在Linux中,什么是文件权限?什么是rwx权限模型?
|
Web App开发 Java 测试技术
《手把手教你》系列基础篇之(一)-java+ selenium自动化测试-环境搭建(上)(详细教程)
【2月更文挑战第10天】《手把手教你》系列基础篇之(一)-java+ selenium自动化测试-环境搭建(上)(详细教程) jmeter系列的文章结束,本来想趁热打铁顺别将Jmeter和接口测试介绍一下,但是感觉Jmeter时间太长了怕大家吃腻了,还有一个原因就是许多小伙伴们或者童鞋们私信问宏哥什么时候可以有java版的selenium,因为不会Python,或者现在大多数企业和公司还是把java奉在神坛上,所以宏哥打算就换个口味,介绍一下java+ selenium自动化测试。大致和前边的python+selenium自动化测试差不多。基于java和selenium做自动化测试.
363 0
|
安全 测试技术
AC/DC电源模块可靠性是确保设备长时间稳定运行的关键因素
AC/DC电源模块可靠性是确保设备长时间稳定运行的关键因素
 AC/DC电源模块可靠性是确保设备长时间稳定运行的关键因素
|
存储 算法 C语言
【链表专题】深入探索链表:文章索引与知识架构(链表的概念、实现、应用、经典例题大合集)
【链表专题】深入探索链表:文章索引与知识架构(链表的概念、实现、应用、经典例题大合集)
|
移动开发 tengine 网络协议
nginx自动检测后台服务器健康状态
转自http://www.iyunv.com/thread-38535-1-1.html   公司业务线上对后端节点的健康检查是通过nginx_upstream_check_module模块做的,这里我将分别介绍这三种实现方式以及之间的差异性。
2824 0
|
机器学习/深度学习 存储 XML
血细胞智能检测与计数软件(Python+YOLOv5深度学习模型+清新界面版)
血细胞智能检测与计数软件(Python+YOLOv5深度学习模型+清新界面版)
784 1