初识R语言之数据处理篇

简介: 初识R语言之数据处理篇

差异基因筛选

差异系数,可以体现对象数据与标准数据的相对差异,数值越大,表示不平衡程度越大[1]

设x与y分别为对象数据和标准数据,则差异系数k的表达式为:image.png


差异倍数

差异表达基因分析:差异倍数(fold change), 差异的显著性(P-value) | 火山图 - Life·Intelligence - 博客园

Differential gene expression analysis:差异表达基因分析 Differentially expressed gene (DEG):差异表达基因 Volcano Pl

https://www.cnblogs.com/leezx/p/7132099.html

df = read.delim('DEG_nofiltered.xls',
                header = T, sep = '\t')
#### 3.1.1 根据差异倍数大于2且P值小于0.05筛选
dim(subset(df, FC > 2 & pval < 0.05 | 
             FC < 0.5 & pval < 0.05)) 
df$logFC = log2(df$FC)
deg = subset(df, abs(logFC) > 1 & pval < 0.05)
dim(deg)

image.png

### 3.2 排序
#### 3.2.1 差异最显著的50个基因
orderP = order(deg$pval)  # 返回pval从小到大排序的坐标
deg_orderP = deg[orderP,] # 根据上述位置关系重新排列行
top50P = head(deg_orderP, 50)  # 提取前50行
top50P$id

image.png

#### 3.2.2 差异倍数最大的50个基因
orderFC = order(abs(deg$logFC),
                decreasing = T)  # 返回差异倍数由大到小排序的坐标
deg_orderFC = deg[orderFC,]  
top50FC = head(deg_orderFC, 50)
top50FC$id

image.png

将数据写入

### 4.2 txt文件
write.table(deg_TF_all, 'deg_TF_all.xls',
            col.names = T, row.names = F,
            sep = '\t', quote = F)
### 4.3 xlsx文件
library(writexl)
write_xlsx(list(mysheet=deg_TF_all), 
           'deg_TF_all.xlsx')
相关文章
|
数据采集 机器学习/深度学习 人工智能
数据清洗、数据处理入门!R语言我来了,数据不再零散!
「数据清洗」和「预处理」是数据科学中必不可少的一部分,它们能够帮助我们准确地分析和预测未来趋势。如果你曾经尝试过进行分析或建模,你会发现数据往往不像我们所想象的那样干净、整洁。需要对数据进行仔细的检查、清理和处理,才能真正把数据转变成有用的信息。
496 0
|
数据采集 数据挖掘 数据处理
R语言-数据处理:dplyr包的distinct 条件去重用法
dplyr中的distinct函数是一种非常实用的数据清洗函数,它可以帮助我们快速、方便地去除数据框中的重复行。 本文简单分享了在R语言中进行数据框条件去重的一些较为常用的操作方法,以供参考
2845 0
|
数据处理
R语言-数据处理:dplyr包select 函数条件选择列向量用法
dplyr中的select函数是一种非常实用的数据框列选择函数,本文分享了这个函数的一些最常用用法以供参考
233 0
|
数据处理
R语言-数据处理:dplyr包的summarise函数汇总用法
summarise 函数是dplyr中非常常用的函数,可以快速、高效地计算出每个变量的统计量。本文分享了这个函数的一些最常用用法以供参考
1427 0
|
数据处理
R语言-数据处理:dplyr包内 mutate-across 联用示例
mutate和across函数是dplyr中非常常用的函数,它们可以帮助我们快速、高效地对数据进行处理和分析。本文分享了联用这两个函数处理数据的基本用法示例,熟练掌握这些函数的用法,可以大大提高我们的数据处理效率。
475 0
|
数据可视化 BI 数据处理
R语言数据处理120题
给大家推荐一个可以做R练习的项目,来自刘早起老师的项目,该项目包含基础20题、基本数据处理:21-50、金融数据处理:51-80、科学计算:81-100、一些补充:101-120。一共是5个部分。
204 0
R语言数据处理120题
|
资源调度 数据处理
R语言学习笔记(三)数据处理
本文的示例数据框集(egData)如下: 值标签: if(FALSE){值标签,levels代表变量实际值,labels代表标签值} egData$sex
1182 0
|
2月前
|
数据采集 机器学习/深度学习 数据可视化
R语言从数据到决策:R语言在商业分析中的实践
【9月更文挑战第1天】R语言在商业分析中的应用广泛而深入,从数据收集、预处理、分析到预测模型构建和决策支持,R语言都提供了强大的工具和功能。通过学习和掌握R语言在商业分析中的实践应用,我们可以更好地利用数据驱动企业决策,提升企业的竞争力和盈利能力。未来,随着大数据和人工智能技术的不断发展,R语言在商业分析领域的应用将更加广泛和深入,为企业带来更多的机遇和挑战。
|
22天前
|
数据挖掘 C语言 C++
R语言是一种强大的统计分析工具,提供了丰富的函数和包用于时间序列分析。
【10月更文挑战第21天】时间序列分析是一种重要的数据分析方法,广泛应用于经济学、金融学、气象学、生态学等领域。R语言是一种强大的统计分析工具,提供了丰富的函数和包用于时间序列分析。本文将介绍使用R语言进行时间序列分析的基本概念、方法和实例,帮助读者掌握R语言在时间序列分析中的应用。
40 3