Fastq BAM VCF

简介: Fastq BAM VCF

生信分析的旅程大致是,接收fastq,获得bam,然后vcf

微信截图_20230606144045.pngFASTQ文件是什么?通常人们会拿着DNA的碎纸片,由碎纸片扫描的图片文件,转化成文本文件就是FASTQ

微信截图_20230606144112.png产生这些小拼图文件之后,这些拼图与盒子上的参考图会有不同吗? 当然会啦,这张图片毕竟只是个参考啦 人与人之间存在许多差异,这些差异解释了为什么有的人容易得某种癌症,有的人对一些药物有反应,而另一些人没有反应 找寻差异的过程也使生信分析变得更加有趣


BAM文件是什么?

把FASTQ文件比对到参考基因组之后,我们得到SAM或者BAM。BAM就是SAM的二进制文件。SAM是纯文本文件,十分巨大。为解决空间爆满的问题,BWA的开发者设计了一种高效的压缩算法,压缩得到的BAM文件大小差不多只有原来的1/6

BAM文件分为两个部分:头文件(header)和比对结果(record,有时也叫alignment section) 头文件:每一行都用 @ 符号开头,里面主要包含了版本信息,序列比对的参考序列信息 比对结果:BAM的核心,包含以下几个内容

微信截图_20230606144140.png

VCF文件分为两个部分,第一部分是说明文件,每行均以两个## 符号开头,第二部分是突变信息

微信截图_20230606144211.png这样我们就可以解释倒数第四行的内容: 20:17330 是一个新发现的由T到A的变异,但质量值较低(QUAL=3),根据说明文件的第十三行,质量值小于10,被标成了 q10 ,在后续分析中可以被过滤掉 其它行代表什么信息,大家感兴趣的话也可以试着翻译翻译

FASTQ记录原始序列和测序质量,BAM记录序列比对信息,VCF记录变异信息

相关文章
|
Web App开发 存储 数据可视化
VCF文件修改染色体格式的方法
VCF文件修改染色体格式的方法
|
人工智能 数据挖掘
SUE3000 1VCF750090R804 PFSK151 3BSE018876R1
SUE3000 1VCF750090R804 PFSK151 3BSE018876R1
57 0
|
数据处理 索引 Python
Bioinfo|bedtools-操作VCF文件
Bioinfo|bedtools-操作VCF文件
286 0
|
数据采集 传感器 算法
Landsat8中*_MTL.txt文件详解
Landsat8中*_MTL.txt文件详解
551 0
通过bcftools合并不同种群的vcf文件
通过bcftools合并不同种群的vcf文件
|
Python
使用pysam操作VCF/BCF文件
使用pysam操作VCF/BCF文件 读取和写出 from pysam import VariantFile bcf_in = VariantFile("test_in.
1939 0
|
机器学习/深度学习 算法
如何过滤freebayes得到原始vcf文件
变异检测算法的核心就是从尽可能找到真实的变异,降低假阳性。尽管目前测序仪器的准确性可以达到99.999%,似乎很高的样子,但是对于高通量测序而言,这意味着在100,000个碱基中就可能出现一个错误,那么freebayes如何保证自己结果的可靠性? freebayes基于贝叶斯公式 贝叶斯公式 简单的说,当一个变异如果只出现在一条链上,或者是某一个位置上,那么这个位点很有可能是高通量测序时引入的偏误。
1338 0
|
Java 索引
biostar handbook(九)|SAM格式及其相关工具
SAM格式介绍 SAM全称是Sequence Alignment/Map, 是目前最常用的存放比对或联配数据的格式。无论是重测序,还是转录组,还是表观组,几乎所有流程都会产生SAM/BAM文件作为中间步骤,然后是后续专门的分析过程。
1321 0
|
算法
biostar handbook(六)| 序列联配
序列联配 序列联配是生物信息学最基础的概念,因为大多数数据分析分析策略都需要使用联配得到的信息。 举个简单的例子,假设你手头上有一些片段'THIS','LI','NE','ISALIGNED', 已知他们来自于一个词,那么原来这个词应该是什么样子。
1186 0