Fasta和Fastq文件

简介: Fasta和Fastq文件

fatsa和fastq文件是生物信息学中最常用存储序列信息的文件类型。二者都是纯文本文件(plain text),和txt文件属于一种。或者说,fasta和fasta本质上就是一个txt文件,只是后缀名从txt改成了fasta/fastq,同时在内容上各自遵循一定的格式。这里先列出两种文件的一部分内容:

1. fasta文件

>seq1
AGCTAGGGCCACT
>seq2
AGCTAGGGCCACTAAATTCGAGAG
>seq3
AGCTAGGGCCACTAAATTCGAGAGAGCTAGGGCCACTAAATTCGAGAG
AGCTAGGGCCACTAAATTCGAGAGAGCTAGGGCCACTAAATTCGAGAG
AGCTAGGGCCACTAAATTCGAGAGAGCTAGGGCCACTAAATTCGAGAG
AGCTAGGGCCACTAAATTCGAGAG

fasta文件中,每一条序列至少由两行组成。

  • 第一行由>开头,其后紧跟序列的名字(ID),这个名字需要保证在文件中只出现一次,即是唯一的;
  • 第二行放置的就是序列的本身,在fasta中,序列本身可以放置一行,也可以放置多行。

2. fastq文件

@read1
CCCTTCTTGTCTTCAGCGTTTCTCC
+
;;3;;;;;;;;;;;;7;;;;;;;88
@read2
TTGGCAGGCCAAGGCCGATGGATCA
+
;;;;;;;;;;;7;;;;;-;;;3;83
@read3
GTTGCTTCTGGCGTGGGTGGGGGGG
+read3
;;;;;;;;;;;9;7;;.7;393333

fastq文件中,每一条序列至少由四行组成。

  • 与fasta不同的是,第一行由@开头,其后紧跟序列的名字;
  • 第二行放置的就是序列本身;
  • 第三行是一个固定的字符+,其后可以跟序列名,也可以不跟
  • 第四行是与第二行序列对应的质量值,由一些字符组成,数值大小等于字符对应的ASCII码(ASCII码是在计算机中存储字符时的整数与字符的对应表)

3. 应用

fasta文件主要用来存储序列数据,可以是DNA也可以是RNA也可以是蛋白质序列数据。只要按照格式存储即可。

fastq文件主要用来存储测序数据,其上有质量值,可以用来辅助后续序列的组装。

相关文章
|
7月前
|
Linux 开发工具 Windows
Linux基本操作——文件
Linux基本操作——文件
|
7月前
|
Windows
HiBit Uninstaller v3.2.10单文件版
HiBit Uninstaller是一款免费无广告功能强大的软件卸载程序,有强制卸载、批量卸载程序、Windows应用商店Appx管理器、Windows更新补丁管理器、浏览器扩展管理器、注册表清理、磁盘垃圾文件清理、快捷方式修复、文件粉碎程序、进程管理器、启动项管理器、系统服务管理器、计划任务管理器、资源管理器菜单项管理器、Windows系统还原管理器等功能。
55 2
|
7月前
|
存储 内存技术
什么是文件
什么是文件
167 0
|
7月前
文件
文件操作。
40 0
|
数据安全/隐私保护
p文件如何转为m文件
如果你是MATLAB爱好者,你一定知道MATLAB P文件,但是,你是否也和许多人一样,摸不着头脑?难道你也经常遇到MATLAB P文件加密问题,难以阅读和研究吗?那么,你需要一个MATLAB P文件解密工具!
|
存储 C语言
文件(下)——“C”
文件(下)——“C”
|
编译器 数据库 C语言
文件(上)——“C”
文件(上)——“C”
|
Go 数据安全/隐私保护 Windows
WinNTSetup V5.3.0 Bata5 单文件版
WinNTSetup 是一款Windows系统硬盘安装器,支持从PE和本地安装系统,支持支持NT内核的系统。
WinNTSetup V5.3.0 Bata5 单文件版
|
Windows Linux
八、文件的处理
f = open ('‪H:\\呵呵.txt',encoding='utf-8',mode='r') s = f.read print(s) f.close f:变量,f_obj,file,f_handler,...文件句柄。
1109 0