文献丨转录组表达数据的生信挖掘研究

简介: 文献丨转录组表达数据的生信挖掘研究

基因的表达是一个非常重要的过程,转录组测序是检测基因表达的技术,本篇文献对转录组分析流程和数据分析方法进行介绍。

引言速览

  • 基因表达特征:时空特异性、空间特异性
  • 转录层面研究基因表达的技术:PCR、基因芯片、转录组测序(RNA-seq)、Nanostring等
  • 高通量技术:检测样品中的大量基因表达情况
  • 关键词:转录组、生信、数据发掘

大规模转录组数据

常规转录组测序

转录组是一个细胞或者样本中全部的基因表达转录本信息,研究转录组是解析基因组中功能元件和生命活动的发生及调控机制的必要基础。

  • 普通转录组

多细胞混池的mRNA测序,便宜应用广泛。通常用于分析基因表达、表达差异、可变剪切体、融合基因、检测SNP、RNA编辑变化。

  • 小RNA测序

小RNA是指序列比较短的非编 码RNA(noncoding RNA)。用于研究miRNA和piRNA,前者被证明对蛋白质的表达调控有影响。

  • 全转录组

研究发现一些非编码RNA有调控功能,因此对细胞内除rRNA外其他所有RNA测序的技术逐渐发展,包括mRNA、IncRNA、环形RNA(cir-cular RNA, circRNA)和小RNA进行测序的技术。

  • 全长转录组

三代测序技术能够检测完整的全长RNA序列,如Pacbio等技术,可用于新转录本发现。

数据库

  • NCBI GEO和SRA. GEO

简介:储存表达芯片和转录组测序数据(RNA和DNA)

用途:分析多组样本间差异表达基因。

  • EBI ArrayExpress

欧洲生物信息研究所(The European Bioinformatics Institute, EBI)用于存储高通量功能基因组实验数据的数据库,主要包括基因表达芯片和转录组测序数据,该数据库也提供工具方便用户上传和下载数据,以及分析芯片数据。

  • GSA

国家基因组科学数据中心(NGDC),其主要数据库为GSA(Genome Sequence Archive),用于存储各种高通量测序数据的原始数据,包括DNA-seq和RNA-seq数据.

转录组常规分析

分析流程

  • 计算差异表达量
  • 差异表达分析(NOIseqW和DEseq)
  • 差异表达基因的功能富集分析(Fishier、DAVID(https://david.ncifcrf.gov)、Metascape(http://metas-cape.org/gp/index.html)和PANTHER(http://pantherdb.org/) ,以及clusteprofiler这款R软件包)

根据不同转录组测序的方法,可以分析RNA可变剪切、全长转录本和IncRNA,circRNA,miRNA等非编码RNA,及其竞争性内源RNA(ceRNA)调控关系.

1.Tophat2或STAR比对+Cufflinks系列软件

2.HISAT, StringTie和Ballgown流程

3.免比对(alignment fiee)流程Salmon, Sailfish和Kallis

基因特异表达分析

不同的组织和样本中有特异的表达谱,可以用于检测标志物。工具软件:SEGtool

基因表达的调控分析

基因表达受到DNA甲基化、组蛋白修饰、增强子、染色质开放性和转录因子 (TF)的调控,PlantTFDB是重要的植物转录因子库。

miRNA转录后调控基因表达也非常普遍,转录因子和miRNA分别在转录转录后进行调控,形成前馈环实现精细调节。

差异共调控分析

差异共调控网络能比较突变和正常之间的调控差异,目前常用的方法和工具是WGCNA,DCGL, DifTCorr和DysRegSig。

  • WGCNA

加权基因共表达网络分析,目的是寻找共表达基因模块、基因和表型之间的关系、寻找核心基因。

  • DCGL和DiffCorr

芯片表达数据检测差异共表达的R包

  • DysRegSig

机器学习方法分析基因失调的框架,从高纬度中发掘信息。

时间序列基因表达分析

基因表达是动态过程,对不同时间点的样品进行转录组测序,然后进行转录组分析,研究表达趋势和规律。

常用软件:STEM、TRAP

细胞组分和丰度分析

普通转录组是混池样本,包含多种细胞类型,不同细胞有不同的功能和基因表达规律,因此,分析组分和丰度至关重要。

常用软件或方法:xCell, CIBERSORTx, Immu-CellAI, TIMER和seq-ImmuCC

转录组新技术

单细胞测序

检测单个细胞中的基因表达,以获得不同细胞的基因表达特征的测序方法。单细胞转录组测序能准确分析每个细胞的基因表达、区分不同细胞群体、发现新的细胞类型等。

常见的单细胞测序方式有Smart- Seq2, 10x Genomics和microwell-seq

单细胞转录组数据分析:

质控、测序片段比对、条形码矩阵生成、数据归一化、降维和聚类、可视化、差异表达、细胞类型鉴定和细胞轨迹推断。

常见方法有Seurat, Scanpy和Cell Ranger

空间转录组

具有不同组织器官的多细胞生物是立体的复杂生命体,其基因表达具有时间特异性空间特异性

空间转录组中最难的点是不同空间样本的获取和重定位,一般是结合组织冷冻切片、显微解剖、荧光原位杂交和不同探针条形码等技术来获取和定位样本。

Spa-tialCPie是一个分析空间转录组聚类的R软件包。

SPARK是一个新的统计方法,用于从不同空间转录组数据中发现基因的空间表达模式。

ST Viewer是一个交互式分析和可视化空间转录组数据的工具。

总结

基因表达研究基础而重要,转录组测序作为最常见的高通量表达技术,其数据分析和挖掘也逐渐成熟、深入和延展。分析的方法比较多,目前还在不断完善,还需通过学习进行深入讨论。


文献:基因转录表达数据的生物信息挖掘研究-郭安源-华中科技大学生命科学与技术学院,人工智能生物学中心


相关文章
|
2月前
|
算法 数据挖掘 Go
文献速读|5分生信+免疫组化单细胞联合bulk转录组肿瘤预后模型
研究摘要: 在《Cancer Immunology Immunotherapy》上发表的一篇文章,通过整合Bulk和单细胞RNA-seq数据,探讨了非小细胞肺癌(NSCLC)中癌相关纤维细胞(CAF)的作用。研究者识别出CAF的预后标志物,构建了一个基于CAF的模型,该模型在四个独立队列中区分了预后良好的和较差的患者。WGCNA分析鉴定出CAF标记基因,而CAF分数与免疫微环境和免疫治疗反应相关。高CAF分数关联较差的免疫治疗反应,FBLIM1被发现为CAF的主要来源,其高表达预测了免疫疗法的不良反应。该研究揭示了CAF在NSCLC免疫抑制和治疗策略中的重要地位。
83 1
|
1月前
|
数据挖掘 数据库
略微学习一下二区4.5分纯生信,单基因肺结核叶酸基因集+泛癌分析
研究摘要: 一项发表于2023年《MEDIATORS OF INFLAMMATION》杂志的文章发现,RTP4基因可能成为诊断肺结核的新生物标志物。研究者通过分析GEO数据库中的多个微阵列数据集,使用WGCNA方法识别与肺结核和叶酸生物合成相关的基因模块。RTP4在健康与肺结核患者间的表达有显著差异,并且在抗结核治疗前后表达量变化。泛癌分析显示,RTP4在不同肿瘤类型中的表达与预后关联不一,提示其可能在多种癌症中具有重要功能。这些发现支持RTP4作为诊断工具的潜力,并为进一步研究其在结核病和癌症中的作用奠定了基础。
27 1
|
9月前
|
网络协议 大数据 数据挖掘
文献丨多组学大数据构建小麦穗发育转录调控网络,TRN+GWAS挖掘关键转录调控(二)
文献丨多组学大数据构建小麦穗发育转录调控网络,TRN+GWAS挖掘关键转录调控(二)
|
2月前
|
搜索推荐 数据挖掘 Java
文献速读|7分的干湿结合胃癌单细胞联合bulk转录组+线粒体自噬
研究人员通过单细胞和bulk RNA测序,鉴定出18个线粒体自噬相关基因(MRGs),在胃癌中的预后作用。这些基因可能成为新的生物标志物和治疗靶点。分析显示GABARAPL2和CDC37在上皮细胞中高度表达,与免疫浸润和预后相关。构建的风险模型在多个独立队列中验证有效,表明MRGs可改善预后预测,并提示免疫治疗潜力。研究强调了单细胞分析在理解疾病复杂性和指导个性化治疗中的价值。
27 3
|
1月前
|
机器学习/深度学习 弹性计算 数据可视化
玩ST、肿瘤研究的来学习一下!16分Nature子刊的单细胞空间转录组+机器学习
Nature Communications 发表了一项关于空间转录组和机器学习在肿瘤研究中的应用。研究聚焦于HPV阴性口腔鳞状细胞癌,通过整合单细胞和空间转录组分析,揭示了肿瘤核心(TC)和前沿边缘(LE)的独特转录特征。TC和LE的基因表达模式与多种癌症的预后相关,其中LE基因标志关联不良预后,而TC则与较好预后相关。利用机器学习,研究人员建立了预测模型,识别出跨癌症类型的保守TC和LE特征。此外,他们还分析了RNA剪接动态,发现了潜在的治疗脆弱性。这项工作为肿瘤生物学和靶向治疗提供了新见解,并为药物开发提供了依据。
26 0
|
9月前
|
数据挖掘 Go 计算机视觉
文献丨群体转录组分析eQTLs调控基因表达
文献丨群体转录组分析eQTLs调控基因表达
|
9月前
|
数据可视化 大数据 数据挖掘
文献丨多组学大数据构建小麦穗发育转录调控网络,TRN+GWAS挖掘关键转录调控(三)
文献丨多组学大数据构建小麦穗发育转录调控网络,TRN+GWAS挖掘关键转录调控(三)
|
9月前
|
大数据 数据挖掘 Go
文献丨多组学大数据构建小麦穗发育转录调控网络,TRN+GWAS挖掘关键转录调控(一)
文献丨多组学大数据构建小麦穗发育转录调控网络,TRN+GWAS挖掘关键转录调控
|
11月前
|
数据可视化 数据挖掘 C++
RNAseq|WGCNA-组学数据黏合剂,代码实战-一(尽)文(力)解决文献中常见的可视化图
RNAseq|WGCNA-组学数据黏合剂,代码实战-一(尽)文(力)解决文献中常见的可视化图
174 0
|
12月前
|
机器学习/深度学习 自然语言处理 数据库
可阅读「通用生命语言」的深度学习模型,照亮了微生物组数据中的暗物质
可阅读「通用生命语言」的深度学习模型,照亮了微生物组数据中的暗物质