转录组入门(2):读文章拿到测序数据

简介: 本系列课程学习的文章是:AKAP95 regulates splicing through scaffolding RNAs and RNA processing factors.

本系列课程学习的文章是:AKAP95 regulates splicing through scaffolding RNAs and RNA processing factors. Nat Commun 2016 Nov 8;7:13347. PMID: 27824034
很容易在文章里面找到数据地址GSE81916 这样就可以下载sra文件

数据下载部分

第一步:在PubMeb上查找文献

img_cb8eb297c635b7079178cd42d503ac49.png
image.png

第二步: 根据文献的method部分找到RNA-Seq是如何存放的

img_dde64d2f83506885a9e34a3658773711.png

第三步: 在GEO上查找GSE81916
GEO站点: https://www.ncbi.nlm.nih.gov/geo/

img_8b606d2844b14da854900543caff80cb.png

找到了NCBI的SRA工具下载所需要的SRR编号。

img_0c0f54aa04ceadfc2243aff01444e696.png

img_cf9780e852dad1a90aebb217ac37c5a8.png

GEO网址: https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE81916 分为两个部分:

FTP网址ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByStudy/sra/SRP/SRP075/SRP075747 可以分为以下几个部分

  • 所有SRA数据的共同部分: ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant
  • reads表示存放reads数据,在FTP可以看到另一个选项是analysis,表示分析结果
  • ByStudy表示根据Study进行分类,其他还可以根据实验ByExp,根据Run,ByRun.
  • sra/SRP/SRP075/SRP075747: 后面部分都是为了便于检索。

第四步:通过循环,分别用prefetch下载数据

for i in `seq 48 62`;
do
    prefetch SRR35899${i}
done

知识点:如何用循环批量下载数据

: 数据很大,需要下载很久,这段时间去看文章所用的分析方法。

文章所用方法:

内容主要在Bioinformatic analyses部分
比对

  • 比对软件:TopHat (v2.0.13)
  • 参考基因组:human reference genome (GRCh37/hg19)
  • GTF文件: GTF version GRCh37.70
  • 只保留MQ >30的map结果
  • Picard-tools (v1.126): 计算平均插入大小(mean insert sizes)和标准差

read count: 软件:HTSeq v0.6.0

差异表达分析: DESeq (v3.0)

差异外显子使用分析: DEXSeq (v3.1)

GO富集分析:DAVID (http://david.ncifcrf.gov/).

实验设计
样本9-15为mRNA-Seq测序结果,用于分析人类293个细胞(9-11)和小鼠ES细胞(12-15)d的AKAP95敲出影响。

文章到底用RNA-Seq做了那些事情

为了评估AKAP95对AS的全局影响,他们删除了人类293 cell和小鼠ES细胞,通过RNA-Seq和DEXseq 分析找到细胞mRNA的不同外显子使用。由于DEXseq考虑到了生物学变异,因此对假阳性(False discovery)有可信的控制。在 293 cell 和 ES cell中,AKAPP95 KD都导致更多地外显子使用减少,意味着APAP95通过促进外显子融合调节全局地可变剪切(AS). 他们用PCR-based assay验证了结果。

文章用了火山图展示被影响地外显子,用饼图可视化多少个外显子被下调了。Fold change is the ratio of the normalized exon level in AKAP95 KD over that in control cells.

img_be68a937aa38198312f08290bbb8acd4.png
image.png

为了证明外显子使用(exon usage)降低不是因为基因表达量降低导致的技术偏差,作者从三个角度进行论证

  1. 工具角度,DEXseq根据基因的总外显子信号水平标准化每个外显子信号
  2. 数据分析,AKAP95 KD的细胞中那些外显子使用被影响的大部分基因,表达量没有降低,所以和表达量无关,还用图证明。Fold change is the ratio of the normalized exon level in AKAP95 KD over that in control cells.
img_41babbf696a768a2659f949bf60f8364.png
image.png
  1. PCR数据证实
  2. 小鼠的也是如此

确定可变外显子使用是AKAP95的直接影响, 他们比较了AKAP95物理靶点(基于AKAP95 RIP-Seq)和功能位点(基于mRNA-Seq)。 那些AKAP95结合到内含子的基因和外显子使用显著性变化(AKAP95 KD)的基因显著性重叠。
逻辑就是: 如果A和B有关,那么有A就有B, 没有A就没有B,且这种关系不是偶然的。

img_2d223828169e11d4fc9dfe025b9f8174.png
image.png

确定AKAP95靶点参与的生物学通路,他们用了基因本体论(GO)分析了AKAP95的功能位点和物理位点。结果揭示那些AKAP95 KD 的293细胞中那些差异外显子使用的基因,显著性的富集在chromatin/transcription regulators and RNA processing factors。那些RIP-Seq找到基因也是如此。

img_a9719d26ecd384768c55902ba43e11ca.png
image.png

综上, AKAP95可能通过直接和间接调节染色质,转录和RNA加工调节全局基因表达。

拓展提高: 写一个Python脚本下载GEO数据

下载数据的过程无非是根据GEO找到FTP的地址,然后用wget或者prefetch下载而已。在我们今后的生涯里必然会遇到很多次类似的情况,所以写个脚本吧。

脚本逻辑很简单:

  1. 根据GEO accession找到FTP地址
  2. 用wget循环下载FTP地址下的数据

考虑到GEO会变,每个人的Python版本也不一样,我临时写的代码的稳健性不好,所以这里就不贴代码了。

目录
相关文章
|
存储 Rust 并行计算
【密码学】一文读懂XTS模式
这篇文章的灵感来源于我偶然翻到的一个某U盘有关磁盘加密的一个介绍(这一篇不是广告蛤), 然后发现这个模式我之前还真没遇到过,因此呢,就学习了一下,就出来了这一篇文章。
8000 0
【密码学】一文读懂XTS模式
|
4月前
|
人工智能 关系型数据库 分布式数据库
手把手搭本地 RAG!用阿里云 PolarDB、Lindorm+Ollama,数据隐私全自己把控
教你用阿里云PolarDB和Lindorm存向量,Ollama跑本地大模型,LangChain串联流程,打造数据不出私网的离线智能问答系统,安全、省钱、可私有化部署,新手也能快速上手!
418 1
|
11月前
|
算法 计算机视觉
RT-DETR改进策略【RT-DETR和Mamba】| 替换骨干 Mamba-RT-DETR-B !!! 最新的发文热点
RT-DETR改进策略【RT-DETR和Mamba】| 替换骨干 Mamba-RT-DETR-B !!! 最新的发文热点
267 4
RT-DETR改进策略【RT-DETR和Mamba】| 替换骨干 Mamba-RT-DETR-B !!! 最新的发文热点
|
安全 搜索推荐 vr&ar
脑机接口:人类认知与技术的深度融合
【9月更文挑战第13天】脑机接口(BMI)技术正快速发展,成为连接人类认知与高科技领域的桥梁。本文从定义、原理、应用及挑战等方面全面探讨了这一前沿技术。脑机接口通过测量大脑活动,转化为外部设备的控制信号,已在疾病治疗、运动功能恢复、认知改善及AR/VR等领域展现巨大潜力。然而,技术难度、伦理安全及成本问题仍需克服。未来,随着技术进步,脑机接口有望更广泛地应用于日常生活,引领科技新方向。
|
前端开发 安全 JavaScript
Python的Flask框架的学习笔记(前后端变量传送,文件上传,网页返回)内含实战:实现一个简单的登录页面
Python的Flask框架的学习笔记(前后端变量传送,文件上传,网页返回)内含实战:实现一个简单的登录页面
600 0
|
人工智能 数据库 决策智能
拥抱Data+AI|如何破解电商7大挑战?DMS+AnalyticDB助力企业智能决策
本文为阿里云瑶池数据库「拥抱Data+AI」系列连载第1篇,聚焦电商行业痛点,探讨如何利用数据与AI技术及分析方法论,为电商注入新活力与效能。文中详细介绍了阿里云Data+AI解决方案,涵盖Zero-ETL、实时在线分析、混合负载资源隔离、长周期数据归档等关键技术,帮助企业应对数据在线重刷、实时分析、成本优化等挑战,实现智能化转型。
拥抱Data+AI|如何破解电商7大挑战?DMS+AnalyticDB助力企业智能决策
|
Linux Android开发 iOS开发
深入探索Android与iOS的多任务处理机制
在移动操作系统领域,Android和iOS各有千秋,尤其在多任务处理上展现出不同的设计理念和技术实现。本文将深入剖析两大平台在后台管理、资源分配及用户体验方面的策略差异,揭示它们如何平衡性能与电池寿命,为用户带来流畅而高效的操作体验。通过对比分析,我们不仅能够更好地理解各自系统的工作机制,还能为开发者优化应用提供参考。
|
前端开发 Java C#
C#语言的优缺点?
C#语言的优缺点?
716 4
|
Linux
Could not fetch/save url http://mirrors.aliyun.com/docker-ce/linux/centos/docker-ce.repoError 403
Could not fetch/save url http://mirrors.aliyun.com/docker-ce/linux/centos/docker-ce.repoError 403
2359 1

热门文章

最新文章