R 数据处理 ①

简介: 数据采样:setwd("E:\\Rwork")set.seed(1234)index
  • 数据采样:
setwd("E:\\Rwork")
set.seed(1234)
index <- sample(1:nrow(iris),10, replace = T)
index
sample_set <- iris[index,]

index <- sample(nrow(iris),0.75*nrow(iris))
sample_set <- iris[index,]
  • 数值离散化

data(iris)
buckets <- 10
maxseplen <- max(iris$Sepal.Length)
minseplen <- min(iris$Sepal.Length)
cutpoints <- seq(minseplen, maxseplen, by = (maxseplen - minseplen ) / buckets )

cutpoints

cutseplen <- cut(iris$Sepal.Length, breaks = cutpoints , include.lowest = TRUE)
newiris <- data.frame(contseplen = iris$Sepal.Length , discseplen = cutseplen)
newiris
  • 数据合并

最常用merge()函数,但是这个函数使用时候这两种情况需要注意:
1、merge(a,b),纯粹地把两个数据集合在一起,没有沟通a、b数据集的by,这样出现的数据很多,相当于a*b条数据;
2、merge函数是匹配到a,b数据集的并,都有的才匹配出来,如果a、b数据集ID不同,要用all=T(下面有all用法的代码)。

ID<-c(1,2,3,4)  
name<-c("Jim","Tony","Lisa","Tom")  
score<-c(89,22,78,78)  
student1<-data.frame(ID,name)  
student2<-data.frame(ID,score)  
total_student<-merge(student1,student2,by="ID")  #或者rbind()  
total_student  
ID<-c(1,2,3)  
name<-c("Jame","Kevin","Sunny")  
student1<-data.frame(ID,name)  
ID<-c(4,5,6)  
name<-c("Sun","Frame","Eric")  
student2<-data.frame(ID,name)  
total<-cbind(student1,student2)  
total 
目录
相关文章
|
3月前
|
Java
ETL工具 Kettle 中 kettle循环传递变量_(最简单的方法)
本文详细介绍了如何在Kettle工具中使用循环传递变量,通过示例展示了如何将movies表数据按月插入到ods_movies表,涉及新建转换、获取变量、作业配置和执行,呈现了一个嵌套作业结构.
211 3
|
5月前
|
JavaScript 前端开发 定位技术
云解析地图作业问题之在搭建页面中简化数据筛选的过程如何解决
云解析地图作业问题之在搭建页面中简化数据筛选的过程如何解决
39 0
|
8月前
|
关系型数据库 MySQL 数据处理
Mysql基础第十四天,使用数据处理函数
Mysql基础第十四天,使用数据处理函数
80 0
|
8月前
|
Java 数据处理 Apache
流计算中的窗口操作是什么?请解释其作用和使用场景。
流计算中的窗口操作是什么?请解释其作用和使用场景。
92 0
|
8月前
|
传感器 JSON Java
流计算中的流式图处理是什么?请解释其作用和常用操作。
流计算中的流式图处理是什么?请解释其作用和常用操作。
75 0
|
8月前
|
存储 消息中间件 分布式计算
流计算中的状态管理是什么?请解释其作用和常用方法。
流计算中的状态管理是什么?请解释其作用和常用方法。
99 0
|
8月前
|
存储 分布式计算 分布式数据库
对给定的数据利用MapReduce编程实现数据的清洗和预处理,编程实现数据存储到HBase数据库,实现数据的增删改查操作接口
对给定的数据利用MapReduce编程实现数据的清洗和预处理,编程实现数据存储到HBase数据库,实现数据的增删改查操作接口
75 0
|
JavaScript 前端开发 数据库
(简易)测试数据构造平台:36 - 复杂工具(页面自动获取数据模块)
(简易)测试数据构造平台:36 - 复杂工具(页面自动获取数据模块)
|
数据可视化 数据挖掘 数据处理
【数据篇】33 # 可视化数据处理的一般方法是什么?
【数据篇】33 # 可视化数据处理的一般方法是什么?
236 0
【数据篇】33 # 可视化数据处理的一般方法是什么?
|
存储 分布式计算 MaxCompute
基于MaxCompute的图计算实践分享-图加载过程
一、前言 MaxCompute Graph 是基于飞天平台实现的面向迭代的图处理框架,为用户提供了类似于 Pregel 的编程接口。MaxCompute Graph(以下简称 Graph )作业包含图加载和计算两个阶段: 加载,将存储在表中的数据载入到内存中,以点和边的形式存在;
6032 1