文献丨转录组表达数据的生信挖掘研究

简介: 文献丨转录组表达数据的生信挖掘研究

基因的表达是一个非常重要的过程,转录组测序是检测基因表达的技术,本篇文献对转录组分析流程和数据分析方法进行介绍。

引言速览

  • 基因表达特征:时空特异性、空间特异性
  • 转录层面研究基因表达的技术:PCR、基因芯片、转录组测序(RNA-seq)、Nanostring等
  • 高通量技术:检测样品中的大量基因表达情况
  • 关键词:转录组、生信、数据发掘

大规模转录组数据

常规转录组测序

转录组是一个细胞或者样本中全部的基因表达转录本信息,研究转录组是解析基因组中功能元件和生命活动的发生及调控机制的必要基础。

  • 普通转录组

多细胞混池的mRNA测序,便宜应用广泛。通常用于分析基因表达、表达差异、可变剪切体、融合基因、检测SNP、RNA编辑变化。

  • 小RNA测序

小RNA是指序列比较短的非编 码RNA(noncoding RNA)。用于研究miRNA和piRNA,前者被证明对蛋白质的表达调控有影响。

  • 全转录组

研究发现一些非编码RNA有调控功能,因此对细胞内除rRNA外其他所有RNA测序的技术逐渐发展,包括mRNA、IncRNA、环形RNA(cir-cular RNA, circRNA)和小RNA进行测序的技术。

  • 全长转录组

三代测序技术能够检测完整的全长RNA序列,如Pacbio等技术,可用于新转录本发现。

数据库

  • NCBI GEO和SRA. GEO

简介:储存表达芯片和转录组测序数据(RNA和DNA)

用途:分析多组样本间差异表达基因。

  • EBI ArrayExpress

欧洲生物信息研究所(The European Bioinformatics Institute, EBI)用于存储高通量功能基因组实验数据的数据库,主要包括基因表达芯片和转录组测序数据,该数据库也提供工具方便用户上传和下载数据,以及分析芯片数据。

  • GSA

国家基因组科学数据中心(NGDC),其主要数据库为GSA(Genome Sequence Archive),用于存储各种高通量测序数据的原始数据,包括DNA-seq和RNA-seq数据.

转录组常规分析

分析流程

  • 计算差异表达量
  • 差异表达分析(NOIseqW和DEseq)
  • 差异表达基因的功能富集分析(Fishier、DAVID(https://david.ncifcrf.gov)、Metascape(http://metas-cape.org/gp/index.html)和PANTHER(http://pantherdb.org/) ,以及clusteprofiler这款R软件包)

根据不同转录组测序的方法,可以分析RNA可变剪切、全长转录本和IncRNA,circRNA,miRNA等非编码RNA,及其竞争性内源RNA(ceRNA)调控关系.

1.Tophat2或STAR比对+Cufflinks系列软件

2.HISAT, StringTie和Ballgown流程

3.免比对(alignment fiee)流程Salmon, Sailfish和Kallis

基因特异表达分析

不同的组织和样本中有特异的表达谱,可以用于检测标志物。工具软件:SEGtool

基因表达的调控分析

基因表达受到DNA甲基化、组蛋白修饰、增强子、染色质开放性和转录因子 (TF)的调控,PlantTFDB是重要的植物转录因子库。

miRNA转录后调控基因表达也非常普遍,转录因子和miRNA分别在转录转录后进行调控,形成前馈环实现精细调节。

差异共调控分析

差异共调控网络能比较突变和正常之间的调控差异,目前常用的方法和工具是WGCNA,DCGL, DifTCorr和DysRegSig。

  • WGCNA

加权基因共表达网络分析,目的是寻找共表达基因模块、基因和表型之间的关系、寻找核心基因。

  • DCGL和DiffCorr

芯片表达数据检测差异共表达的R包

  • DysRegSig

机器学习方法分析基因失调的框架,从高纬度中发掘信息。

时间序列基因表达分析

基因表达是动态过程,对不同时间点的样品进行转录组测序,然后进行转录组分析,研究表达趋势和规律。

常用软件:STEM、TRAP

细胞组分和丰度分析

普通转录组是混池样本,包含多种细胞类型,不同细胞有不同的功能和基因表达规律,因此,分析组分和丰度至关重要。

常用软件或方法:xCell, CIBERSORTx, Immu-CellAI, TIMER和seq-ImmuCC

转录组新技术

单细胞测序

检测单个细胞中的基因表达,以获得不同细胞的基因表达特征的测序方法。单细胞转录组测序能准确分析每个细胞的基因表达、区分不同细胞群体、发现新的细胞类型等。

常见的单细胞测序方式有Smart- Seq2, 10x Genomics和microwell-seq

单细胞转录组数据分析:

质控、测序片段比对、条形码矩阵生成、数据归一化、降维和聚类、可视化、差异表达、细胞类型鉴定和细胞轨迹推断。

常见方法有Seurat, Scanpy和Cell Ranger

空间转录组

具有不同组织器官的多细胞生物是立体的复杂生命体,其基因表达具有时间特异性空间特异性

空间转录组中最难的点是不同空间样本的获取和重定位,一般是结合组织冷冻切片、显微解剖、荧光原位杂交和不同探针条形码等技术来获取和定位样本。

Spa-tialCPie是一个分析空间转录组聚类的R软件包。

SPARK是一个新的统计方法,用于从不同空间转录组数据中发现基因的空间表达模式。

ST Viewer是一个交互式分析和可视化空间转录组数据的工具。

总结

基因表达研究基础而重要,转录组测序作为最常见的高通量表达技术,其数据分析和挖掘也逐渐成熟、深入和延展。分析的方法比较多,目前还在不断完善,还需通过学习进行深入讨论。


文献:基因转录表达数据的生物信息挖掘研究-郭安源-华中科技大学生命科学与技术学院,人工智能生物学中心


相关文章
|
7月前
|
算法 数据挖掘 Go
文献速读|5分生信+免疫组化单细胞联合bulk转录组肿瘤预后模型
研究摘要: 在《Cancer Immunology Immunotherapy》上发表的一篇文章,通过整合Bulk和单细胞RNA-seq数据,探讨了非小细胞肺癌(NSCLC)中癌相关纤维细胞(CAF)的作用。研究者识别出CAF的预后标志物,构建了一个基于CAF的模型,该模型在四个独立队列中区分了预后良好的和较差的患者。WGCNA分析鉴定出CAF标记基因,而CAF分数与免疫微环境和免疫治疗反应相关。高CAF分数关联较差的免疫治疗反应,FBLIM1被发现为CAF的主要来源,其高表达预测了免疫疗法的不良反应。该研究揭示了CAF在NSCLC免疫抑制和治疗策略中的重要地位。
188 1
|
网络协议 大数据 数据挖掘
文献丨多组学大数据构建小麦穗发育转录调控网络,TRN+GWAS挖掘关键转录调控(二)
文献丨多组学大数据构建小麦穗发育转录调控网络,TRN+GWAS挖掘关键转录调控(二)
|
4月前
|
数据采集 搜索推荐 算法
基于B站视频评论的文本分析,采用包括文本聚类分析、LDA主题分析、网络语义分析
本文通过Python爬虫技术采集B站视频评论数据,利用LDA主题分析、聚类分析和语义网络分析等方法,对评论进行深入的文本分析,挖掘用户评论的主题、情感倾向和语义结构,旨在为商业决策提供支持,优化内容创作和用户满意度。
462 2
基于B站视频评论的文本分析,采用包括文本聚类分析、LDA主题分析、网络语义分析
|
7月前
|
人工智能 数据可视化
【数据分享】维基百科Wiki负面有害评论(网络暴力)文本数据多标签分类挖掘可视化
【数据分享】维基百科Wiki负面有害评论(网络暴力)文本数据多标签分类挖掘可视化
|
7月前
|
搜索推荐 数据挖掘 Java
文献速读|7分的干湿结合胃癌单细胞联合bulk转录组+线粒体自噬
研究人员通过单细胞和bulk RNA测序,鉴定出18个线粒体自噬相关基因(MRGs),在胃癌中的预后作用。这些基因可能成为新的生物标志物和治疗靶点。分析显示GABARAPL2和CDC37在上皮细胞中高度表达,与免疫浸润和预后相关。构建的风险模型在多个独立队列中验证有效,表明MRGs可改善预后预测,并提示免疫治疗潜力。研究强调了单细胞分析在理解疾病复杂性和指导个性化治疗中的价值。
161 3
|
数据挖掘 Go 计算机视觉
文献丨群体转录组分析eQTLs调控基因表达
文献丨群体转录组分析eQTLs调控基因表达
|
数据可视化 大数据 数据挖掘
文献丨多组学大数据构建小麦穗发育转录调控网络,TRN+GWAS挖掘关键转录调控(三)
文献丨多组学大数据构建小麦穗发育转录调控网络,TRN+GWAS挖掘关键转录调控(三)
|
大数据 数据挖掘 Go
文献丨多组学大数据构建小麦穗发育转录调控网络,TRN+GWAS挖掘关键转录调控(一)
文献丨多组学大数据构建小麦穗发育转录调控网络,TRN+GWAS挖掘关键转录调控
|
7月前
|
机器学习/深度学习 算法 数据挖掘
JCR一区5.4分|经典~非肿瘤机器学习筛选生物标志物+qPCR
本文介绍了一项使用机器学习算法识别间变性甲状腺癌(ATC)新型生物标志物和免疫浸润特征的研究。该研究发表在2023年9月的《Journal of Endocrinological Investigation》上,IF为5.4。通过对GEO数据库中的RNA测序数据进行分析,研究人员鉴定出425个差异表达基因,并利用LASSO和SVM-RFE算法确定了4个ATC特征基因(ADM、PXDN、MMP1和TFF3)。这些基因在诊断、药物敏感性和免疫微环境中具有潜在价值,可能成为ATC诊断和治疗的生物标志物。
143 0
|
7月前
|
机器学习/深度学习 编解码 数据挖掘
实例分割综述总结综合整理版
实例分割综述总结综合整理版
220 0
实例分割综述总结综合整理版
下一篇
DataWorks