如何过滤freebayes得到原始vcf文件

简介: 变异检测算法的核心就是从尽可能找到真实的变异,降低假阳性。尽管目前测序仪器的准确性可以达到99.999%,似乎很高的样子,但是对于高通量测序而言,这意味着在100,000个碱基中就可能出现一个错误,那么freebayes如何保证自己结果的可靠性?freebayes基于贝叶斯公式贝叶斯公式简单的说,当一个变异如果只出现在一条链上,或者是某一个位置上,那么这个位点很有可能是高通量测序时引入的偏误。

变异检测算法的核心就是从尽可能找到真实的变异,降低假阳性。尽管目前测序仪器的准确性可以达到99.999%,似乎很高的样子,但是对于高通量测序而言,这意味着在100,000个碱基中就可能出现一个错误,那么freebayes如何保证自己结果的可靠性?

freebayes基于贝叶斯公式

img_2faecc734c03cc2c5f3129b6f2e766a4.jpe
贝叶斯公式

简单的说,当一个变异如果只出现在一条链上,或者是某一个位置上,那么这个位点很有可能是高通量测序时引入的偏误。

img_cca548eca55d81122e837beeab2f71e3.jpe
可能位点

先验模型并不能解决所有错误,freebayes初步会得到海量的变异位点,这肯定是不能直接用于最后分析,需要进一步过滤。过滤有两种策略,一种是硬过滤(hard filter),一种则是使用机器学习的方法,比如说支持向量机。

Hard filters的策略很简单,就是按照我们所认为的好去过滤,

  • 这个变异的信度要高, QUAL>N
  • 有足够多的深度支持,DP >N
  • 变异应该出现在两条链上, SAF >0 & SAR>0
  • 变异出现在read的中部, RPL>0 & RPR >0

RPL(Reads Placed Left), RPR(Reads Placed Right)
SAF(Number of alternate observations on the forward strand), SAR(Number of alternate observations on the reverse strand)

由于每一个物种基因组性质都不太一样,那么应该设置什么样标准比较好呢?

如果是自然变异, 那么在大多数生物中,转换(transitions, ts, A-T<->G-C)的发生的概率颠换应该大于颠换(transversion, tv,T-A<->G-C). 在人类中,ts/tv约等于2, 在线粒体中, ts/tv有可能大于20。 tv/ts信息可以用vt peek看。

使用机器学习的方法有点难度,需要你提供一个高信度的变异集用来训练分类器,属于比较高级的模块。

参考资料

目录
相关文章
如何用vcftools从VCF文件中提取某条染色体信息
如何用vcftools从VCF文件中提取某条染色体信息
|
SQL 大数据 C#
Excel公式 提取文件路径后缀
原文:Excel公式 提取文件路径后缀 我们在代码中获取一个文件路径的后缀,是一个很简单的事. 如C#中,可以通过new FileInfo(filePath).Extension,或者Path.GetExtension(filePath)获取。
1908 0
|
6月前
如何快速提取出一个文件里面全部指定类型的文件的全部路径
该文介绍了如何使用一个工具进行文件批量复制。工具可以从百度网盘(提取码:qwu2)或蓝奏云(提取码:2r1z)下载。打开工具后切换到第五模块,使用Ctrl+5快捷键进入文件批量复制功能。点击“搜索添加”,选择要搜索的文件夹(如PS文件夹),勾选搜索全部子文件,然后开始搜索。搜索完成后,会显示所有结果。
|
6月前
如何批量复制多个文件到多个目录中(提取匹配法)
该文介绍了一个工具的使用方法,用于将带有特定数字的文件或文件夹自动归类到相应数字命名的文件夹中。操作步骤包括:下载工具(链接在文中提供)、打开工具选择“文件批量复制”功能、设置匹配规则(如从文件名中提取数字)并预览效果,最后执行复制操作。通过示例展示了如何处理“-数字.png”格式的文件,以及如何过滤掉特定格式的图片。该工具适用于处理大量按规则命名的文件,提高整理效率。
|
Web App开发 存储 数据可视化
VCF文件修改染色体格式的方法
VCF文件修改染色体格式的方法
|
6月前
合并文件信息
合并文件信息。
38 0
|
Linux Shell 数据格式
Linux脚本丨批量提取VCF文件指定样本数据
Linux脚本丨批量提取VCF文件指定样本数据
|
算法 Linux Python
SGAT丨基于R语言tidyverse的vcf转txt文件算法,SNP位点判断与自动校正,染色体格式替换
SGAT丨基于R语言tidyverse的vcf转txt文件算法,SNP位点判断与自动校正,染色体格式替换
|
算法 Linux Python
SGAT丨hapmap 格式hmp.txt文件转换,基因型和表型文件样品关联筛选提取的快速方法
SGAT丨hapmap 格式hmp.txt文件转换,基因型和表型文件样品关联筛选提取的快速方法
|
存储
ENVI_IDL:批量获取影像文件各个波段的中值并输出为csv文件
ENVI_IDL:批量获取影像文件各个波段的中值并输出为csv文件
325 0