R 文本数据输入read.table(),scan(), 如何使用自带测试数据集合package:datasets

简介:
read.table从文件读取数据,输出数据框。
格式要求
第一行为数据框的name,第二行第一列为行号,其他列为数据。
Input file form with names and row labels:

     Price    Floor     Area   Rooms     Age  Cent.heat
01   52.00    111.0      830     5       6.2      no
02   54.75    128.0      710     5       7.5      no
03   57.50    101.0     1000     5       4.2      no
04   57.50    131.0      690     6       8.8      no
05   59.75     93.0      900     5       1.9     yes
...

> HousePrice <- read.table("houses.data")


如果第二行的行号省略,需要使用参数header=TRUE。
Input file form without row labels:

Price    Floor     Area   Rooms     Age  Cent.heat
52.00    111.0      830     5       6.2      no
54.75    128.0      710     5       7.5      no
57.50    101.0     1000     5       4.2      no
57.50    131.0      690     6       8.8      no
59.75     93.0      900     5       1.9     yes
...

HousePrice <- read.table("houses.data", header=TRUE)


scan()从文件读取数据,输出指定类型。
第二个参数为一个dummy类型,例如输出到列表。

inp <- scan("input.dat", list("",0,0))
label <- inp[[1]]; x <- inp[[2]]; y <- inp[[3]]

或者可以为dummy列表指定name。
inp <- scan("input.dat", list(id="", x=0, y=0))
label <- inp$id; x <- inp$x; y <- inp$y

dummy类型为数值类型,输出到一个向量,同时使用matrix构造一个矩阵。
X <- matrix(scan("light.dat", 0), ncol=5, byrow=TRUE)


R还内置了很多测试数据集合,在package:datasets包里面。
可以使用attach将这个包加载到搜索路径中以供使用。
默认可能已经绑定了,

> search()
[1] ".GlobalEnv"        "package:stats"     "package:graphics" 
[4] "package:grDevices" "package:utils"     "package:datasets" 
[7] "package:methods"   "Autoloads"         "package:base"     

使用以下方法可以查看这个包中的对象:
> ls(6)
> ls('package:datasets')
> objects(6)
> objects('package:datasets')
  [1] "ability.cov"           "airmiles"              "AirPassengers"        
  [4] "airquality"            "anscombe"              "attenu"               
  [7] "attitude"              "austres"               "beaver1"              
 [10] "beaver2"               "BJsales"               "BJsales.lead"         
 [13] "BOD"                   "cars"                  "ChickWeight"          
 [16] "chickwts"              "co2"                   "CO2"                  
 [19] "crimtab"               "discoveries"           "DNase"                
 [22] "esoph"                 "euro"                  "euro.cross"           
 [25] "eurodist"              "EuStockMarkets"        "faithful"             
 [28] "fdeaths"               "Formaldehyde"          "freeny"               
 [31] "freeny.x"              "freeny.y"              "HairEyeColor"         
 [34] "Harman23.cor"          "Harman74.cor"          "Indometh"             
 [37] "infert"                "InsectSprays"          "iris"                 
 [40] "iris3"                 "islands"               "JohnsonJohnson"       
 [43] "LakeHuron"             "ldeaths"               "lh"                   
 [46] "LifeCycleSavings"      "Loblolly"              "longley"              
 [49] "lynx"                  "mdeaths"               "morley"               
 [52] "mtcars"                "nhtemp"                "Nile"                 
 [55] "nottem"                "npk"                   "occupationalStatus"   
 [58] "Orange"                "OrchardSprays"         "PlantGrowth"          
 [61] "precip"                "presidents"            "pressure"             
 [64] "Puromycin"             "quakes"                "randu"                
 [67] "rivers"                "rock"                  "Seatbelts"            
 [70] "sleep"                 "stack.loss"            "stack.x"              
 [73] "stackloss"             "state.abb"             "state.area"           
 [76] "state.center"          "state.division"        "state.name"           
 [79] "state.region"          "state.x77"             "sunspot.month"        
 [82] "sunspot.year"          "sunspots"              "swiss"                
 [85] "Theoph"                "Titanic"               "ToothGrowth"          
 [88] "treering"              "trees"                 "UCBAdmissions"        
 [91] "UKDriverDeaths"        "UKgas"                 "USAccDeaths"          
 [94] "USArrests"             "USJudgeRatings"        "USPersonalExpenditure"
 [97] "uspop"                 "VADeaths"              "volcano"              
[100] "warpbreaks"            "women"                 "WorldPhones"          
[103] "WWWusage"   

使用测试数据:
例如uspop是一个时间序列

> uspop
Time Series:
Start = 1790 
End = 1970 
Frequency = 0.1 
 [1]   3.93   5.31   7.24   9.64  12.90  17.10  23.20  31.40  39.80  50.20
[11]  62.90  76.00  92.00 105.70 122.80 131.70 151.30 179.30 203.20


解绑之后,就不能直接使用这里面的对象了。
> detach('package:datasets')

使用data()函数也可以查看包中的测试数据对象。
> data()
Data sets in package ‘datasets’:

AirPassengers           Monthly Airline Passenger Numbers 1949-1960
BJsales                 Sales Data with Leading Indicator
BJsales.lead (BJsales)
                        Sales Data with Leading Indicator
BOD                     Biochemical Oxygen Demand
......


查看所有已安装的包的测试数据:
> data(package = .packages(all.available = TRUE))
Data sets in package ‘boot’:

acme                    Monthly Excess Returns
aids                    Delay in AIDS Reporting in England and Wales
aircondit               Failures of Air-conditioning Equipment
aircondit7              Failures of Air-conditioning Equipment
amis                    Car Speeding and Warning Signs
aml                     Remission Times for Acute Myelogenous Leukaemia
......


从其他包导入测试数据:
data(package="rpart")
data(Puromycin, package="datasets")

或者使用library加载包后,测试数据会自动加载到搜索路径。

[参考]
目录
相关文章
|
1月前
|
存储 测试技术 API
数据驱动开发软件测试脚本
今天刚提交了我的新作《带着ChatGPT玩转软件开发》给出版社,在写作期间跟着ChatGPT学到许多新知识。下面分享数据驱动开发软件测试脚本。
46 0
|
9月前
|
分布式计算 Shell MaxCompute
odps测试表及大量数据构建测试
odps测试表及大量数据构建测试
|
9月前
|
Web App开发 JSON 测试技术
API测试工具集合:让接口测试更简单高效
在当今软件开发领域,接口测试工具如Postman、Apifox、Swagger等成为确保API正确性、性能和可靠性的关键。Postman全球闻名但高级功能需付费,Apifox则集成了API文档、调试、Mock与自动化测试,简化工作流并提高团队协作效率,特别适合国内用户。Swagger自动生成文档,YApi开源但功能逐渐落后,Insomnia界面简洁却缺乏团队协作支持,Paw仅限Mac系统。综合来看,Apifox是国内用户的理想选择,提供中文界面和免费高效的功能。
|
10月前
|
开发框架 .NET Java
C#集合数据去重的5种方式及其性能对比测试分析
C#集合数据去重的5种方式及其性能对比测试分析
125 11
|
10月前
|
开发框架 .NET Java
C#集合数据去重的5种方式及其性能对比测试分析
C#集合数据去重的5种方式及其性能对比测试分析
152 10
|
11月前
|
机器学习/深度学习 算法 UED
在数据驱动时代,A/B 测试成为评估机器学习项目不同方案效果的重要方法
在数据驱动时代,A/B 测试成为评估机器学习项目不同方案效果的重要方法。本文介绍 A/B 测试的基本概念、步骤及其在模型评估、算法改进、特征选择和用户体验优化中的应用,同时提供 Python 实现示例,强调其在确保项目性能和用户体验方面的关键作用。
387 6
|
机器学习/深度学习 监控 计算机视觉
目标检测实战(八): 使用YOLOv7完成对图像的目标检测任务(从数据准备到训练测试部署的完整流程)
本文介绍了如何使用YOLOv7进行目标检测,包括环境搭建、数据集准备、模型训练、验证、测试以及常见错误的解决方法。YOLOv7以其高效性能和准确率在目标检测领域受到关注,适用于自动驾驶、安防监控等场景。文中提供了源码和论文链接,以及详细的步骤说明,适合深度学习实践者参考。
2958 1
目标检测实战(八): 使用YOLOv7完成对图像的目标检测任务(从数据准备到训练测试部署的完整流程)
|
11月前
|
机器学习/深度学习 算法 UED
在数据驱动时代,A/B 测试成为评估机器学习项目效果的重要手段
在数据驱动时代,A/B 测试成为评估机器学习项目效果的重要手段。本文介绍了 A/B 测试的基本概念、步骤及其在模型评估、算法改进、特征选择和用户体验优化中的应用,强调了样本量、随机性和时间因素的重要性,并展示了 Python 在 A/B 测试中的具体应用实例。
268 1
|
存储 测试技术 数据库
数据驱动测试和关键词驱动测试的区别
数据驱动测试 数据驱动测试或 DDT 也被称为参数化测试。
231 1
|
机器学习/深度学习 并行计算 数据可视化
目标分类笔记(二): 利用PaddleClas的框架来完成多标签分类任务(从数据准备到训练测试部署的完整流程)
这篇文章介绍了如何使用PaddleClas框架完成多标签分类任务,包括数据准备、环境搭建、模型训练、预测、评估等完整流程。
862 0
目标分类笔记(二): 利用PaddleClas的框架来完成多标签分类任务(从数据准备到训练测试部署的完整流程)

热门文章

最新文章