二代测序fastq序列名称格式(illumina NGS)

简介: 二代测序fastq序列名称格式(illumina NGS)

在fastq文件里,会用4行文本来表示一条序列:

在fastq文件里,会用4行文本来表示一条序列:

@SIM:1:FCX:1:15:6329:1045:GATTACT+GTCTTAAC 1:N:0:ATCCGA
TCGCACTCAACGCCCTGCATATGACAAGACAGAATC
+
<>;##=><9=AAAAAAAAAA9#:<#<;<<<????#=


其中第一行文本是序列的名称(read name 或者说read ID),包含了非常多有用的关键信息,每部分信息之间用 ':' 分隔开,从左到右依次看过去:

SIM 表示 instrument ID(即测序仪的硬件ID)

1 表示 run number(该测序仪上的测序顺位数字?)

FCX 表示 followcell ID(测序芯片的ID)

1 表示 lane ID(第几条lane)

15 表示 Tile number(Tile数字)

6329 表示 X coordinate of cluster(桥式PCR生成的簇的横坐标)

1045 表示 Y coordinate of cluster(簇的纵坐标)

GATTACT+GTCTTAAC 表示 read1 UMI ID + read2 UMI ID(拆分数据的UMI序列)

1 表示 read number,1 表示read1,2表示read2

N 表示 Y if the read is filtered (did not pass), N otherwise.(N表示合格,Y不合格)

0 表示 control number(在HiSeq X and NextSeq平台上总是为0)

ATCCGA 表示 index(拆分数据用的index序列)


解释名词

SBS:边合成边测序反应,每次SBS会延伸一个碱基,大约耗时70分钟。

Run:单次上机测序反应,可以产生4G-75G测序通量不等。

Lane:单泳道,每条泳道可以直接物理区分测序样品,1次run最多可以同时上样8条Lane。

Channel:Lane的同义词。

Tile:每次荧光扫描的最小单位,小区,每条Lane中排有2列tile,合计120个小区。每个小区上分布数目繁多的簇结合位点。

Cluster:簇,在Solexa测序技术中会采用桥式PCR方式生产DNA簇,每个DNA簇才能产生亮度达到CCD可以分辨的荧光点。

Index:标签,在Solexa多重测序(Multiplexed Sequencing)过程中会使用Index来区分样品,并在常规测序完成后,针对Index部分额外进行7个循环的测序,通过Index的识别,可以在1条Lane中区分12种不同的样品。

Barcode: Index同义词

Hiseq 2000 与 2500比较:

2000的通量600G/RUN,2500的通量120G/RUN

2000有2个flowcell,每个flowcell8个lane

2500的也是2个flowcell,快速模式中每个flowcell2个lane,每个lane产出30G数据量

相关文章
|
搜索推荐 Linux Python
VET:一个基于R语言的VCF数据提取工具,支持按基因ID、物理位置、样品名称提取指定变异信息
VET:一个基于R语言的VCF数据提取工具,支持按基因ID、物理位置、样品名称提取指定变异信息
|
5月前
|
算法 C++
C++哈希表企业级运用----DNA序列的检测
C++哈希表企业级运用----DNA序列的检测
|
索引
ENVI_IDL:批量拼接Modis Swath的逐日数据并输出为Geotiff格式
ENVI_IDL:批量拼接Modis Swath的逐日数据并输出为Geotiff格式
130 0
|
5月前
|
存储 定位技术 C++
C++中GDAL批量读取大量栅格遥感影像文件并生成各像元在不同文件中数值的时间序列数组
C++中GDAL批量读取大量栅格遥感影像文件并生成各像元在不同文件中数值的时间序列数组
|
算法 Linux Python
SGAT丨hapmap 格式hmp.txt文件转换,基因型和表型文件样品关联筛选提取的快速方法
SGAT丨hapmap 格式hmp.txt文件转换,基因型和表型文件样品关联筛选提取的快速方法
|
Linux 测试技术 数据处理
R语言丨根据VCF文件设计引物,自动识别两样本差异SNP位点,调用samtools获取上下游参考序列,快速得到引物序列
R语言丨根据VCF文件设计引物,自动识别两样本差异SNP位点,调用samtools获取上下游参考序列,快速得到引物序列
哈希表的企业级应用— —DNA 检测字串匹配
哈希表的企业级应用— —DNA 检测字串匹配
哈希表的企业级应用— —DNA 检测字串匹配
|
存储 编解码 算法
GIS开发:切片格式说明(翻译)-墨卡托
GIS开发:切片格式说明(翻译)-墨卡托
168 0
|
编解码 算法 定位技术
GIS开发:切片格式说明(翻译)-wgs84
GIS开发:切片格式说明(翻译)-wgs84
129 0
ENVI_IDL:批量重投影Modis Swath产品并指定范围输出为Geotiff格式+解析
ENVI_IDL:批量重投影Modis Swath产品并指定范围输出为Geotiff格式+解析
185 0