NCBI GEO王炸:GEO2R直接分析RNA-seq数据,几家欢喜几家愁?

简介: GEO2R是NCBI GEO团队针对上传到GEO的芯片数据开发的一款在线差异分析、可视化作图工具,是广大数据分析人员的福音。然而,一直以来GEO2R仅针对芯片数据,对于越来越多的测序数据,只能下载所上传的matrix矩阵,进行分析,若没有上传表达矩阵,或者基因组版本不合适的话,往往还得下载原始数据重新分析,耗时耗力。最近,NCBI GEO团队推出了一项“王炸”更新:GEO2R可以直接分析RNA-seq测序数据了。

GEO2R是NCBI GEO团队针对上传到GEO的芯片数据开发的一款在线差异分析、可视化作图工具,是广大数据分析人员的福音。然而,一直以来GEO2R仅针对芯片数据,对于越来越多的测序数据,只能下载所上传的matrix矩阵,进行分析,若没有上传表达矩阵,或者基因组版本不合适的话,往往还得下载原始数据重新分析,耗时耗力。
最近,NCBI GEO团队推出了一项“王炸”更新:GEO2R可以直接分析RNA-seq测序数据了。

小伙伴们:喜大泪奔(喜闻乐见、大快人心、普天同庆、奔走相告)!
同事和我:工作要丢了么?时代抛弃我,连声招呼都不打啊! 111.gif

1,NCBI GEO为什么要给我们准备RNA-seq count数据?
A major barrier to fully exploiting and reanalyzing the massive volumes of public RNA-seq data archived by SRA is the cost and effort required to consistently process raw RNA-seq reads into concise formats that summarize the expression results. To help address this need, the NCBI SRA and GEO teams have built a pipeline that precomputes RNA-seq gene expression counts and delivers them as count matrices that may be incorporated into commonly used differential expression analysis and visualization software.

大白话就是:SRA服务器上存了大量数据,一般人要分析,得下载,得比对,费时费力,反正数据在他们NCBI服务器上,服务器闲着也是闲着,直接套个pipeline把RNA-seq基因表达count处理好,放出来供大家使用。不知道又要革了多少人的命。fig1.png

2,支持的物种
目前仅人类。小鼠的在路上,预计2024年夏天。

3,数据类型:
raw count:可以下载用DESeq2,edgeR或者limma voom进行后续的差异分析。
Normalized counts:根据测序深度和测序长度标准化的count,包括:FPKM (Fragments Per Kilobase Million,双端)、RPKM(Reads Per Kilobase Million,单端)和TPM(Transcripts Per Kilobase Million)
注释:基因id,gene symbol,descrption,gene ontology等。fig2.png

4,分析流程
使用hisat2将物种为human,类型为transcriptomic的数据比对到GCA_000001405.15 参考基因组上。比对率大于50%的用featureCounts输出raw count文件。注释数据库用的Annotation Release 109.20190905.

5,如何下载?
https://www.ncbi.nlm.nih.gov/geo/download/?acc= GSE30970

直接换成自己的GSE号就行了

6,局限
GEO上的数据太杂了,GEO team没有对数据质量等深入检查(合不合适他们不管,先跑了再说),所以有以下局限性:
1)counts表达矩阵可能跟已发表文章的不一致
这个很容易理解,不同软件,甚至不同版本算出来的都不一样。
2)超过50%比对率的transcriptomic数据用于分析,所以质检可能很松,并且缺样品
上传的数据类型多样,可能不能直接比较,例如RNA-seq和RIP-seq都在矩阵里,但是不好直接比较。
3)Normalized矩阵文件并非充分标准化的。

对生信数据分析行业带来的冲击:
1)GEO的RNA-seq分析几乎要变得免费,无门槛了
2)有了表达矩阵,直接省了下载、比对的时间,极大提高了工作效率
3)有了统一标准?
4)大规模利用GEO数据的时代又来了
5)伦理问题

欢迎留言讨论!

目录
相关文章
|
网络协议 Linux C语言
linux下CC++网络编程基本:socket实现tcp和udp的例子
linux下CC++网络编程基本:socket实现tcp和udp的例子
552 0
|
传感器 算法 物联网
《移动互联网技术》第三章 无线定位技术:掌握位置服务和室内定位的基本概念和工作原理
《移动互联网技术》第三章 无线定位技术:掌握位置服务和室内定位的基本概念和工作原理
652 0
|
Java Linux 索引
ElasticSearch常见的报错及解决
ElasticSearch常见的报错及解决
860 0
|
11月前
|
机器学习/深度学习 人工智能 数据挖掘
AI概率学预测足球大小球让球数据分析
在足球数据分析中,AI概率学预测主要用于大小球和让球盘口的分析。大小球预测通过历史数据、机器学习和实时数据动态调整进球数;让球分析则利用Elo评分等评估实力差距,结合盘口数据预测比赛结果。数据来源包括历史比赛、球队和球员信息及外部因素。模型选择涵盖回归、分类和时间序列模型,并通过交叉验证、误差分析进行优化。实际应用包括制定投注策略、风险管理及开发自动化系统。代码示例展示了使用随机森林回归模型预测进球数的过程。
|
人工智能 自然语言处理 数据库
CHRONOS:阿里通义联合上海交大推出时间线摘要生成框架,适用于大规模新闻数据的时间线生成任务
CHRONOS 是由阿里通义实验室与上海交大联合推出的时间线摘要生成框架,支持开放域与封闭域,通过迭代自问自答机制生成连贯的时间线摘要,适用于新闻、金融、教育等多个领域。
700 15
CHRONOS:阿里通义联合上海交大推出时间线摘要生成框架,适用于大规模新闻数据的时间线生成任务
|
搜索推荐
代码分享|GPL平台没有基因注释什么办?别慌,基因ID注释万能公式!
本文介绍了处理无基因注释的GEO数据集的方法。当遇到GPL平台无基因注释时,可以通过以下步骤解决:1) 查看数据集补充文件中是否已有注释矩阵;2) 使用搜索引擎或官网查找相关资源;3) 如数据集较新,尝试联系平台官方;4) 利用已有经验进行转换。文中通过多个GSE示例详细解释了如何处理不同情况,并提醒读者注意检查数据集中可能隐藏的注释信息。作者提供了转换ID的代码,并在公众号“多线程核糖体”分享了相关资源。
2587 0
【LVGL快速入门】LVGL开源框架入门教程之框架移植(二)
【LVGL快速入门】LVGL开源框架入门教程之框架移植(二)
912 2
|
Java Linux
【网络】高并发场景处理:线程池和IO多路复用
【网络】高并发场景处理:线程池和IO多路复用
414 2
|
存储 算法 C++
弗洛伊德(Floyd)算法(C/C++)
弗洛伊德(Floyd)算法(C/C++)
|
Web App开发 Ubuntu Linux
手把手教你Windows+Linux双系统的安装与卸载(一)
后台突然有很多小伙伴留言想看 Linux+Windows 双系统的安装,本想自己写一个,但看了一眼自己那台服役快6年的老古董,想想还是不折腾它了。 于是上网搜索找到了这篇教程,已经征得原作者同意转载至本公众号,并且征得他的同意标注为原创。如果觉得本文对你有帮助,欢迎赞赏,所得款项全部归还原作者。
1545 0
手把手教你Windows+Linux双系统的安装与卸载(一)