biostar handbook|如何模拟测序结果

简介: 为了评价一个工具的性能,通常我们都需要先模拟一批数据。这样相当于有了参考答案,才能检查工具的实际表现情况。因此对于我们而言,面对一个新的功能,可以先用模拟的数据测试下不同工具的优缺点。

为了评价一个工具的性能,通常我们都需要先模拟一批数据。这样相当于有了参考答案,才能检查工具的实际表现情况。因此对于我们而言,面对一个新的功能,可以先用模拟的数据测试下不同工具的优缺点。有如下几个工具值得推荐一下:

  • 'wgsim/dwgsim': 从全基因组中获取测序reads
  • 'msbar': EMBOSS其中一个工具,能够从单个序列中模拟随机突变
  • 'biosed': EMBOSS的一个工具,可以按照我们给定突变位点模拟
  • 'ReadSim': 专门用于模拟PacBio/Nanopore这类仪器产生的long read
  • 'Art': 目前最复杂的模拟工具,能够模拟测序仪测序引入的错误位点
  • 'Metasim': 用于模拟宏基因组得到的reads
  • 'Polyester': 用于模拟RNA-seq

值得注意的是,这些工具模拟效果是有限,比如建库操作中超声破碎会出现的误差就很难模拟。但是最好的用途就是看看不同生物学事件在数据的情况,比如说发生了“大规模倒置”的基因组得到的数据比对到参考基因组上会是什么情况。

使用dwgsim进行模拟

wgismdwgsim能够根据参考基因组模拟出测序reads,主要是二倍体基因组的SNPs和插入缺失(INDEL)多态位点。wgism容易安装,但是参考答案是以简单的文本格式保存,不容易可视化。dwgsimwgism启发,虽然安装稍微麻烦了点,但是参考答案是以VCF格式保存,很方便可视化。

# 请先安装好ncurse
# 安装dwgsim
cd ~/src
git clone --recursive https://github.com/nh13/DWGSIM.git
cd DWGSIM
make
ln -s ~/src/DWGSIM/dwgsim ~/bin/dwgsim
ln -s ~/src/DWGSIM/dwgsim_eval ~/bin/dwgsim/dwgsim_eval

简单地模拟一批数据

# 获取参考基因组
efetch -db=nuccore -format=fasta -id=AF086833 > genome.fa
# 模拟数据
dwgsim genome.fa data

会得到如下数据

|-- data.bfast.fastq.gz # 用于bfast
|-- data.bwa.read1.fastq.gz # 用于BWA的R1
|-- data.bwa.read2.fastq.gz # 用于BWA的R2
|-- data.mutations.txt
|-- data.mutations.vcf # VCF形式擦

随后将这批数据用BWA比对,以bcftools检测变异和参考答案比较一下。

bwa index genome.fa
bwa mem genome.fa data.bwa.read1.fastq.gz data.bwa.read2.fastq.gz | samtools sort -o data.bwa.bam
samtools mpileup -uf genome.fa data.bwa.bam | bcftools call -mv -o data.bwa.vcf

使用IGV可视化如下

img_4803dbc074b5b4dbd9760ff6ce5093bc.jpe
IGV可视化变异

说明samtools+bcftools找变异这个组合肯定靠谱。

目录
相关文章
|
8月前
|
算法 搜索推荐 数据挖掘
Sentieon | 每周文献-Liquid Biopsy-第三十二期
Sentieon | 每周文献-Liquid Biopsy-第三十二期
53 1
|
8月前
|
算法 数据挖掘 测试技术
Sentieon | 每周文献-Liquid Biopsy-第二十一期
Sentieon | 每周文献-Liquid Biopsy-第二十一期
56 0
|
8月前
|
算法 安全 数据挖掘
Sentieon | 每周文献-Tumor Sequencing-第十四期
Sentieon | 每周文献-Tumor Sequencing-第十四期
73 0
|
机器学习/深度学习 算法 数据挖掘
Sentieon | 每周文献-Long Read Sequencing(长读长测序)-第七期
Sentieon | 每周文献-Long Read Sequencing(长读长测序)-第七期
89 0
|
数据可视化 算法 Java
biostar handbook(十)|如何进行变异检测
变异检测流程 什么是基因组变异 基因组变异是一个定义比较模糊的概念. 所谓的变异是相对于一个完美的“参考基因组”而言。但是其实完美的“参考基因组”并不存在,因为我们只是选择某一个物种里的其中似乎比较正常的个体进行测序组装,然后基于它进行后续的研究。
1494 0
|
数据建模
biostar handbook(十一)|基因组变异的表示形式
VCF文件格式 在biostar handbook(十)|如何进行变异检测部分我们最后以VCF格式存放找到的变异。尽管大部分情况下,我们都不需要直接和VCF文件打交道,通常就是将其作为输入提供给后续的分析。
1607 0
|
数据挖掘 索引 算法
biostar handbook(八)|高通量数据分析初步:序列比对
高通量短读比对工具 在过去的十几年里,随着高通量测序(HTS)成本降低,出现了各种测序概念, DNA-Seq, ChIP-Seq, RNA-Seq, BS-Seq覆盖了研究领域的方方面面。
1697 0
|
Java 索引
biostar handbook(九)|SAM格式及其相关工具
SAM格式介绍 SAM全称是Sequence Alignment/Map, 是目前最常用的存放比对或联配数据的格式。无论是重测序,还是转录组,还是表观组,几乎所有流程都会产生SAM/BAM文件作为中间步骤,然后是后续专门的分析过程。
1310 0
biostar handbook: 第六周笔记汇总
我突然发现我自己忘了整理第六周的笔记,好尴尬,趁现在补上。。 Biostar 第七课01 模式识别 Biostar第七课02 align到基因组 biostarhandbook(六)|正则表达式和K-mers在模式匹配中的使用 biostarhand...
847 0
|
算法
biostar handbook(六)| 序列联配
序列联配 序列联配是生物信息学最基础的概念,因为大多数数据分析分析策略都需要使用联配得到的信息。 举个简单的例子,假设你手头上有一些片段'THIS','LI','NE','ISALIGNED', 已知他们来自于一个词,那么原来这个词应该是什么样子。
1181 0

热门文章

最新文章