Fastq BAM VCF

简介: Fastq BAM VCF

生信分析的旅程大致是,接收fastq,获得bam,然后vcf

微信截图_20230606144045.pngFASTQ文件是什么?通常人们会拿着DNA的碎纸片,由碎纸片扫描的图片文件,转化成文本文件就是FASTQ

微信截图_20230606144112.png产生这些小拼图文件之后,这些拼图与盒子上的参考图会有不同吗? 当然会啦,这张图片毕竟只是个参考啦 人与人之间存在许多差异,这些差异解释了为什么有的人容易得某种癌症,有的人对一些药物有反应,而另一些人没有反应 找寻差异的过程也使生信分析变得更加有趣


BAM文件是什么?

把FASTQ文件比对到参考基因组之后,我们得到SAM或者BAM。BAM就是SAM的二进制文件。SAM是纯文本文件,十分巨大。为解决空间爆满的问题,BWA的开发者设计了一种高效的压缩算法,压缩得到的BAM文件大小差不多只有原来的1/6

BAM文件分为两个部分:头文件(header)和比对结果(record,有时也叫alignment section) 头文件:每一行都用 @ 符号开头,里面主要包含了版本信息,序列比对的参考序列信息 比对结果:BAM的核心,包含以下几个内容

微信截图_20230606144140.png

VCF文件分为两个部分,第一部分是说明文件,每行均以两个## 符号开头,第二部分是突变信息

微信截图_20230606144211.png这样我们就可以解释倒数第四行的内容: 20:17330 是一个新发现的由T到A的变异,但质量值较低(QUAL=3),根据说明文件的第十三行,质量值小于10,被标成了 q10 ,在后续分析中可以被过滤掉 其它行代表什么信息,大家感兴趣的话也可以试着翻译翻译

FASTQ记录原始序列和测序质量,BAM记录序列比对信息,VCF记录变异信息

相关文章
|
11月前
|
Web App开发 存储 数据可视化
VCF文件修改染色体格式的方法
VCF文件修改染色体格式的方法
|
9月前
|
人工智能 数据挖掘
SUE3000 1VCF750090R804 PFSK151 3BSE018876R1
SUE3000 1VCF750090R804 PFSK151 3BSE018876R1
28 0
|
数据采集 传感器 算法
Landsat8中*_MTL.txt文件详解
Landsat8中*_MTL.txt文件详解
415 0
|
数据处理 索引 Python
Bioinfo|bedtools-操作VCF文件
Bioinfo|bedtools-操作VCF文件
227 0
ENVI_IDL: 文本文件的读取(主要是txt、csv文件)
ENVI_IDL: 文本文件的读取(主要是txt、csv文件)
352 0
通过bcftools合并不同种群的vcf文件
通过bcftools合并不同种群的vcf文件
|
存储 Python
ArcPy将.hdf格式栅格数据转为.tif格式
本文介绍基于Python中ArcPy模块,实现大量HDF格式栅格图像文件批量转换为TIFF格式的方法~
333 1
ArcPy将.hdf格式栅格数据转为.tif格式
|
内存技术
如何将.m4a转.wav文件
如何将.m4a转.wav文件
如何将.m4a转.wav文件
|
Python
使用pysam操作VCF/BCF文件
使用pysam操作VCF/BCF文件 读取和写出 from pysam import VariantFile bcf_in = VariantFile("test_in.
1852 0