GFF(General Feature Format)是文本文件,是用来记录基因特征的文件,目前最新的版本是gff3版本。
下面是苹果GFF文件开头的一部分,我也将以此为例
##gff-version 3 1 GDDH13 gene 6557 19041 . - . ID=MD01G0000000;biotype=protein_coding;gene_id=MD01G0000000;logic_name=genes_gddh 1 GDDH13 mRNA 6557 19041 . - . ID=MD01G0000000;Parent=MD01G0000000;biotype=protein_coding;transcript_id=MD01G0000000 1 GDDH13 three_prime_UTR 6557 6930 . - . Parent=MD01G0000000 1 GDDH13 exon 6557 8110 . - . Parent=MD01G0000000;Name=MD01G0000000-E3;constitutive=1;ensembl_end_phase=-1;ensembl_phase=2;exon_id=MD01G0000000-E3;rank=3 1 GDDH13 CDS 6931 8110 . - 1 ID=MD01G0000000;Parent=MD01G0000000;protein_id=MD01G0000000 1 GDDH13 exon 9412 11077 . - . Parent=MD01G0000000;Name=MD01G0000000-E2;constitutive=1;ensembl_end_phase=2;ensembl_phase=1;exon_id=MD01G0000000-E2;rank=2 1 GDDH13 CDS 9412 11077 . - 2 ID=MD01G0000000;Parent=MD01G0000000;protein_id=MD01G0000000 1 GDDH13 CDS 18512 18884 . - 0 ID=MD01G0000000;Parent=MD01G0000000;protein_id=MD01G0000000 1 GDDH13 exon 18512 19041 . - . Parent=MD01G0000000;Name=MD01G0000000-E1;constitutive=1;ensembl_end_phase=1;ensembl_phase=-1;exon_id=MD01G0000000-E1;rank=1 1 GDDH13 five_prime_UTR 18885 19041 . - . Parent=MD01G0000000
首先gff文件由9列组成,列于列之间由\t
隔开,\t
你可能还不认识,它更为常见的是用在Excel
的csv
格式文件中作为列于列的分割符,你完全可以使用Excel
将一个gff文件打开,因为他们组成是相同的,gff文件中,每一行称为一个feature,由#
开头的行不记录feature信息,只用作注释。九列信息分别是:
seqid
序列IDSource
资料来源Feature Type
功能的类型 比如基因、mRNA或外显子等Feature Start
feature开始的位置Feature end
feature结束的位置Score
得分,可以用来记录序列相似性等Strand
链的正负+
为正链,-
为负链Phase
指示阅读框从何处开始,值为0、1、2中的一个,表示从这个特征开始到达下一个密码子的第一个碱基的碱基数目Atributes
这个特征的一些其他属性,通常会有一个唯一的ID
gff文件可用来绘制基因结构图,确定基因在染色体中的位置,又或者是用来将基因组比对到参考基因组上。