使用Sentieon加速甲基化WGBS数据分析

简介: 使用Sentieon加速甲基化WGBS数据分析

全基因组甲基化测序(WGBS)是一种研究DNA甲基化的方法,以全面了解在基因组水平上的表观遗传变化。在进行WGBS数据分析时,通常需要使用专门的比对工具,因为这些工具需要能够处理亚硫酸盐转化后的数据。

以下是四个不同的WGBS比对分析流程:

  • Bismark:Bismark是一个基于Bowtie2或HISAT2比对器的流行WGBS分析工具。它允许处理双链亚硫酸盐转化测序数据,并提供甲基化位点的检测和分析。
  • BitmapperBS:BitmapperBS是一个专门为亚硫酸盐转化测序数据设计的高效比对器。它可以处理双链测序数据,并提供甲基化位点的检测和分析功能。
  • BSseeker2:BSseeker2是一个用于WGBS数据分析的比对工具。它可以处理单链和双链亚硫酸盐转化测序数据,并支持Bowtie, Bowtie2和SOAPaligner作为比对器。BSseeker2提供了甲基化位点检测和甲基化水平计算等功能。
  • BWA-Meth:BWA-Meth是一个基于BWA的比对工具,专门用于处理WGBS数据。它提供了处理双链亚硫酸盐转化测序数据的功能,并可以进行甲基化位点检测。

 

这四种分析流程各自具有不同的特点和优势,选择哪个流程取决于研究需求、计算资源以及期望的分析速度和准确性。实际应用中,可以尝试比较这些流程的结果,以找到最适合您需求的解决方案。

WGBS甲基化分析流程加速方案

Sentieon BWA + MethyDackel

在甲基化分析中,Sentieon软件可以与其他工具结合使用以提高分析速度和准确性。在这种情况下,Sentieon BWA被用来替换原始的BWA-mem,与MethyDackel结合,建立起Sentieon BWA-Meth流程。

在这个流程中,Sentieon BWA首先负责处理亚硫酸盐转化后的测序数据进行高效的序列比对。由于Sentieon BWA的优化,比对速度和准确性得到了提高,同时减少了计算资源的消耗。

接下来,MethyDackel被用于从Sentieon BWA的比对结果中提取甲基化信息。MethyDackel能够检测甲基化位点,计算甲基化水平,并生成甲基化状态的统计和可视化结果。

通过结合Sentieon BWA和MethyDackel,Sentieon BWA-Meth流程能够为全基因组甲基化分析提供一个高效且准确的解决方案。这使得研究人员可以更快地分析甲基化数据,更有效地挖掘潜在的生物学意义。

具体加速流程

Sentieon处理甲基化数据的过程可以概括如下:

1、Sentieon甲基化分析流程:

  • 使用EpiQC研究中的全基因组甲基化测序数据(doi:https://doi.org/10.1101/2020.12.14.421529)。
  • 数据预处理:读取修剪、质量控制。
  • 使用四种不同的分析流程进行比对,包括Bismark、BitmapperBS、BSseeker2和BWAMeth。
  • 使用Sentieon BWA替换原始的BWA-mem,并与MethyDackel结合,建立Sentieon BWAMeth流程。
  • 比对后处理:使用不同的模块进行甲基化位点调用和CpG甲基化水平识别。

2、甲基化映射速度比较:

  • 每次比较中,使用相同的随机种子对一百万对读取进行随机抽样。
  • 在24个CPU线程的服务器上使用各软件的默认参数运行比对。
  • 记录每个重复实验的性能时间。
  • Sentieon BWA-Meth比原始的BWA-Meth速度提高了2.5倍,与BitMaperBS的速度相似。

3、甲基化映射准确性比较:

  • 比较不同甲基组文库制备中的流程映射准确性;使用Samtools stats和Qualimap生成后比对统计数据。
  • 显示库总读取的参考映射结果分布。
  • Sentieon BWA-meth具有最高的主要映射率和最低的未映射率。

4、CpG位点读取覆盖率比较:

  • 计算14个库和4个分析流程中识别出的CpG位点的测序覆盖率。
  • 与其他测试工具相比,Sentieon BWA-Meth在CpG位点提供了更高的测序覆盖率。

5、Sentieon甲基化分析流程结论:

  • Sentieon BWA-Meth与BWA-Meth提供相同的结果。
  • Sentieon BWA-Meth流程显示出最高的处理速度,比开源流程快约2倍。
  • Sentieon BWA-Meth具有最高的主要映射率和最高的CpG位点读取覆盖率。

6、应用说明 - 安装

  • 安装bwa-meth
# Prerequisites: samtools # these 4 lines are only needed if you don't have toolshed installed 
wget https://pypi.python.org/packages/source/t/toolshed/toolshed-0.4.0.tar.gz 
tar xzvf toolshed-0.4.0.tar.gz 
cd toolshed-0.4.0 sudo 
python setup.py install
wget https://github.com/brentp/bwa-meth/archive/master.zip 
unzip master.zip 
cd bwa-meth-master
sudo python setup.py install
  • 安装MethylDackel
# Prerequisites: htslib and libBigWig
git clone https://github.com/dpryan79/MethylDackel.git 
cd MethylDackel 
make LIBBIGWIG="/some/path/to/libBigWig.a" 
make install prefix=/some/installation/path
  • 安装BWA(开源)
# Only used for indexing reference genome. 
git clone https://github.com/lh3/bwa.git 
cd bwa; make

7、准备测试数据

  • 从bwa-meth下载测试数据并使用开源BWA对参考基因组进行索引
wget https://github.com/brentp/bwa-meth/raw/master/example/ref.fa 
wget https://github.com/brentp/bwa-meth/raw/master/example/t_R1.fastq.gz 
wget https://github.com/brentp/bwa-meth/raw/master/example/t_R2.fastq.gz
  • 使用开源BWA构建index索引
bwameth.py index $REF #Indexes with BWA-MEM (default)
  • 确保安装了开源的BWA在$PATH下,而不是Sentieon BWA

8、读取比对:

  • 使用Sentieon BWA进行读取比对。
  • 将Sentieon bin文件夹添加到$PATH。
export PATH=<PATH_TO_SENTIEON>/sentieon-genomics-202112.05/bin:$PATH
*   运行bwa-meth,通过sentieon util sort进行排序。
bwameth.py --threads 16 \
        --reference $REFERENCE \
        $FQ1 $FQ2 | \
sentieon util sort -i - –sam2bam –o output.bam


  • 确保屏幕输出以下内容。否则,bwa-meth将使用开源bwa。
This software is licensed to [xxxxx@xxxx.xxx] by Sentieon Inc. 
version: sentieon-genomics-202112.06

9、制表:

  • 使用开源工具MethylDackel。
MethylDackel extract ref.fa output.bam

  • 输出结果为bedGraph文件,第4列表示在给定位置有甲基化C的证据的读取/读取对数,第5列表示未甲基化C的等价值。

结论

Sentieon流程同样支持 UMI 甲基化数据分析,其进一步提升了分析结果的一致性。Sentieon UMI设计的核心理念是不丢弃任何原始序列包含的可用信息,经过统计模型的处理之后为每一个consensus序列的每个位点赋予一个准确的质量值,供下一步的变异/甲基化检测工具参考。Sentieon 比对模块加速经典 BWA- Meth 流程,与 MethyDackel 共同组成全甲基化组检测流程。与开源方案相比提速 2.5 倍同时,获得更高的 read 正确比对率,更高的 CpG 位点检出率。

 

软件试用:Sentieon基因数据分析加速软件 -官方试用下载 (insvast.com)

目录
相关文章
|
8天前
|
机器学习/深度学习 人工智能 算法
高效精准的数据分析技术
在当今社会,安防问题日益受到人们的关注。声纹识别技术作为安防领域的一项重要应用,正逐渐走进人们的日常生活。AnalyticDB向量检索与AI实战的结合,为声纹识别技术的发展提供了强大的支持。
15 0
|
2月前
|
存储 分布式计算 Hadoop
大数据分析的工具
大数据是一个含义广泛的术语,是指数据集,如此庞大而复杂的,他们需要专门设计的硬件和软件工具进行处理。该数据集通常是万亿或EB的大小。这些数据集收集自各种各样的来源:传感器,气候信息,公开的信息,如杂志,报纸,文章。大数据产生的其他例子包括购买交易记录,网络日志,病历,军事监控,视频和图像档案,及大型电子商务。
40 8
|
2月前
|
机器学习/深度学习 存储 数据挖掘
Hologres 与机器学习的融合:为实时分析添加预测性分析功能
【9月更文第1天】随着数据科学的发展,企业越来越依赖于从数据中获取洞察力来指导决策。传统的数据仓库主要用于存储和查询历史数据,而现代的数据仓库如 Hologres 不仅提供了高性能的查询能力,还能够支持实时数据分析。将 Hologres 与机器学习技术相结合,可以在实时数据流中引入预测性分析,为企业提供更深入的数据洞见。本文将探讨如何将 Hologres 与机器学习集成,以便实现实时的预测性分析。
82 4
|
6月前
|
机器学习/深度学习 存储 分布式计算
scikit-learn在大数据处理中的优化与加速
【4月更文挑战第17天】面对大数据处理的挑战,scikit-learn的性能优化与加速至关重要。优化策略包括内存管理(数据集缩减、数据流处理、分布式存储)和算法选择(如在线学习、低内存占用算法)。并行化计算通过设置`n_jobs`或使用Dask、Joblib提升速度,分布式计算如Spark、Dask Distributed扩展处理能力。结合案例实践,建议综合考虑各种策略,并关注新技术以适应不断变化的大数据需求。未来,期待更多优化方案提升scikit-learn在大数据场景下的效能。
|
6月前
|
数据采集 搜索推荐 数据可视化
Day04-数据分析模型
Day04-数据分析模型
|
机器学习/深度学习 算法 数据挖掘
Sentieon DNAscope:适配多测序平台数据的快速精准分析流程
Sentieon DNAscope:适配多测序平台数据的快速精准分析流程
232 0
|
编解码 弹性计算 搜索推荐
阿里云E-HPC+i4p大内存实例,加速寻因生物单细胞数据分析效率
将单细胞测序技术与IT基础设施结合在一起,实现1+1大于2的效果。
阿里云E-HPC+i4p大内存实例,加速寻因生物单细胞数据分析效率
|
机器学习/深度学习 算法 数据挖掘
做数据分析,要懂多少模型
一提起数据分析,很多人都会联想到“分析模型”,似乎分析模型是个很厉害又很神秘的东西。那做数据分析到底需要懂多少模型?今天简单跟大家分享一下。
215 0
做数据分析,要懂多少模型
|
存储 运维 数据可视化
突破数据分析瓶颈,寻因生物单细胞测序数据分析迈入云时代
i4p持久内存实例+Memory Machine大内存虚拟化软件,发挥持久内存的全部性能。
突破数据分析瓶颈,寻因生物单细胞测序数据分析迈入云时代
|
存储 SQL 数据可视化
NBI可视化集成clickhouse,实现百亿级数据分析能力
ClickHouse是一款MPP架构的列式存储数据库,并允许使用SQL查询实时生成分析报告,也是一个新的开源列式数据库。 随着业务的迅猛增长,Yandex.Metrica目前已经成为世界第三大Web流量分析平台,每天处理超过200亿个跟踪事件。能够拥有如此惊人的体量,在它背后提供支撑的ClickHouse功不可没。ClickHouse已经为Yandex.Metrica存储了超过20万亿行的数据,90%的自定义查询能够在1秒内返回,其集群规模也超过了400台服务器。虽然ClickHouse起初只是为了Yandex.Metrica而研发的,但由于它出众的性能,目前也被广泛应用于Yandex内部其他
NBI可视化集成clickhouse,实现百亿级数据分析能力