Fasta和Fastq文件

简介: Fasta和Fastq文件

fatsa和fastq文件是生物信息学中最常用存储序列信息的文件类型。二者都是纯文本文件(plain text),和txt文件属于一种。或者说,fasta和fasta本质上就是一个txt文件,只是后缀名从txt改成了fasta/fastq,同时在内容上各自遵循一定的格式。这里先列出两种文件的一部分内容:

1. fasta文件

>seq1
AGCTAGGGCCACT
>seq2
AGCTAGGGCCACTAAATTCGAGAG
>seq3
AGCTAGGGCCACTAAATTCGAGAGAGCTAGGGCCACTAAATTCGAGAG
AGCTAGGGCCACTAAATTCGAGAGAGCTAGGGCCACTAAATTCGAGAG
AGCTAGGGCCACTAAATTCGAGAGAGCTAGGGCCACTAAATTCGAGAG
AGCTAGGGCCACTAAATTCGAGAG

fasta文件中,每一条序列至少由两行组成。

  • 第一行由>开头,其后紧跟序列的名字(ID),这个名字需要保证在文件中只出现一次,即是唯一的;
  • 第二行放置的就是序列的本身,在fasta中,序列本身可以放置一行,也可以放置多行。

2. fastq文件

@read1
CCCTTCTTGTCTTCAGCGTTTCTCC
+
;;3;;;;;;;;;;;;7;;;;;;;88
@read2
TTGGCAGGCCAAGGCCGATGGATCA
+
;;;;;;;;;;;7;;;;;-;;;3;83
@read3
GTTGCTTCTGGCGTGGGTGGGGGGG
+read3
;;;;;;;;;;;9;7;;.7;393333

fastq文件中,每一条序列至少由四行组成。

  • 与fasta不同的是,第一行由@开头,其后紧跟序列的名字;
  • 第二行放置的就是序列本身;
  • 第三行是一个固定的字符+,其后可以跟序列名,也可以不跟
  • 第四行是与第二行序列对应的质量值,由一些字符组成,数值大小等于字符对应的ASCII码(ASCII码是在计算机中存储字符时的整数与字符的对应表)

3. 应用

fasta文件主要用来存储序列数据,可以是DNA也可以是RNA也可以是蛋白质序列数据。只要按照格式存储即可。

fastq文件主要用来存储测序数据,其上有质量值,可以用来辅助后续序列的组装。

相关文章
|
算法 Shell Linux
【Shell 命令集合 文档编辑】Linux 检查文本文件中的拼写错误 spell 命令使用指南
【Shell 命令集合 文档编辑】Linux 检查文本文件中的拼写错误 spell 命令使用指南
231 0
|
编译器 API 数据安全/隐私保护
深入对比:Qt 的 QFile/QFileInfo 和与 C++17 Filesystem 和标准文件流 的细节剖析
深入对比:Qt 的 QFile/QFileInfo 和与 C++17 Filesystem 和标准文件流 的细节剖析
1020 3
|
12月前
|
并行计算 TensorFlow 算法框架/工具
Tensorflow error(三):failed to get convolution algorithm,cuDNN failed to initialize
这篇文章讨论了TensorFlow在进行卷积操作时可能遇到的“failed to get convolution algorithm”错误,通常由于cuDNN初始化失败引起,并提供了几种解决方案,包括调整GPU内存使用策略和确保CUDA、cuDNN与TensorFlow版本兼容性。
224 1
Tensorflow error(三):failed to get convolution algorithm,cuDNN failed to initialize
|
存储 数据采集 安全
各种系统架构图与详细说明
原文:各种系统架构图与详细说明 共享平台逻辑架构设计 如上图所示为本次共享资源平台逻辑架构图,上图整体展现说明包括以下几个方面: 1 应用系统建设 本次项目的一项重点就是实现原有应用系统的全面升级以及新的应用系统的开发,从而建立行业的全面的应用系统架构群。
26433 1
|
8月前
|
机器学习/深度学习 算法 安全
用PyTorch从零构建 DeepSeek R1:模型架构和分步训练详解
本文详细介绍了DeepSeek R1模型的构建过程,涵盖从基础模型选型到多阶段训练流程,再到关键技术如强化学习、拒绝采样和知识蒸馏的应用。
685 3
用PyTorch从零构建 DeepSeek R1:模型架构和分步训练详解
|
12月前
|
移动开发 Java Windows
Java 匹配\r 和 \n 的正则表达式如何编写
【10月更文挑战第19天】Java 匹配\r 和 \n 的正则表达式如何编写
704 3
|
11月前
|
Java 应用服务中间件 Linux
【Docker容器化技术】docker安装与部署、常用命令、容器数据卷、应用部署实战、Dockerfile、服务编排docker-compose、私有仓库
本文主要讲解了Docker的安装与部署、常用命令、容器数据卷、应用部署实战、Dockerfile、服务编排docker-compose、私有仓库以及Docker容器虚拟化与传统虚拟机比较。
12262 39
【Docker容器化技术】docker安装与部署、常用命令、容器数据卷、应用部署实战、Dockerfile、服务编排docker-compose、私有仓库
|
安全 Linux
Linux常见维护报错,修复MBR引导/修复grub2菜单/内核文件丢失
Linux常见维护报错,修复MBR引导/修复grub2菜单/内核文件丢失
377 0
Linux常见维护报错,修复MBR引导/修复grub2菜单/内核文件丢失
|
安全 Java API
SpringBoot 实现 elasticsearch 索引操作(RestHighLevelClient 的应用)
SpringBoot 实现 elasticsearch 索引操作(RestHighLevelClient 的应用)
289 1
ENVI Classic:如何加载栅格数据(Img/DEM)和矢量数据(evf of ROI)?
ENVI Classic:如何加载栅格数据(Img/DEM)和矢量数据(evf of ROI)?
1534 0