fatsa和fastq文件是生物信息学中最常用存储序列信息的文件类型。二者都是纯文本文件(plain text),和txt文件属于一种。或者说,fasta和fasta本质上就是一个txt文件,只是后缀名从txt改成了fasta/fastq,同时在内容上各自遵循一定的格式。这里先列出两种文件的一部分内容:
1. fasta文件
>seq1 AGCTAGGGCCACT >seq2 AGCTAGGGCCACTAAATTCGAGAG >seq3 AGCTAGGGCCACTAAATTCGAGAGAGCTAGGGCCACTAAATTCGAGAG AGCTAGGGCCACTAAATTCGAGAGAGCTAGGGCCACTAAATTCGAGAG AGCTAGGGCCACTAAATTCGAGAGAGCTAGGGCCACTAAATTCGAGAG AGCTAGGGCCACTAAATTCGAGAG
fasta文件中,每一条序列至少由两行组成。
- 第一行由
>
开头,其后紧跟序列的名字(ID),这个名字需要保证在文件中只出现一次,即是唯一的; - 第二行放置的就是序列的本身,在fasta中,序列本身可以放置一行,也可以放置多行。
2. fastq文件
@read1 CCCTTCTTGTCTTCAGCGTTTCTCC + ;;3;;;;;;;;;;;;7;;;;;;;88 @read2 TTGGCAGGCCAAGGCCGATGGATCA + ;;;;;;;;;;;7;;;;;-;;;3;83 @read3 GTTGCTTCTGGCGTGGGTGGGGGGG +read3 ;;;;;;;;;;;9;7;;.7;393333
fastq文件中,每一条序列至少由四行组成。
- 与fasta不同的是,第一行由
@
开头,其后紧跟序列的名字; - 第二行放置的就是序列本身;
- 第三行是一个固定的字符
+
,其后可以跟序列名,也可以不跟 - 第四行是与第二行序列对应的质量值,由一些字符组成,数值大小等于字符对应的ASCII码(ASCII码是在计算机中存储字符时的整数与字符的对应表)
3. 应用
fasta文件主要用来存储序列数据,可以是DNA也可以是RNA也可以是蛋白质序列数据。只要按照格式存储即可。
fastq文件主要用来存储测序数据,其上有质量值,可以用来辅助后续序列的组装。