二代测序fastq序列名称格式(illumina NGS)

简介: 二代测序fastq序列名称格式(illumina NGS)

在fastq文件里,会用4行文本来表示一条序列:

在fastq文件里,会用4行文本来表示一条序列:

@SIM:1:FCX:1:15:6329:1045:GATTACT+GTCTTAAC 1:N:0:ATCCGA
TCGCACTCAACGCCCTGCATATGACAAGACAGAATC
+
<>;##=><9=AAAAAAAAAA9#:<#<;<<<????#=


其中第一行文本是序列的名称(read name 或者说read ID),包含了非常多有用的关键信息,每部分信息之间用 ':' 分隔开,从左到右依次看过去:

SIM 表示 instrument ID(即测序仪的硬件ID)

1 表示 run number(该测序仪上的测序顺位数字?)

FCX 表示 followcell ID(测序芯片的ID)

1 表示 lane ID(第几条lane)

15 表示 Tile number(Tile数字)

6329 表示 X coordinate of cluster(桥式PCR生成的簇的横坐标)

1045 表示 Y coordinate of cluster(簇的纵坐标)

GATTACT+GTCTTAAC 表示 read1 UMI ID + read2 UMI ID(拆分数据的UMI序列)

1 表示 read number,1 表示read1,2表示read2

N 表示 Y if the read is filtered (did not pass), N otherwise.(N表示合格,Y不合格)

0 表示 control number(在HiSeq X and NextSeq平台上总是为0)

ATCCGA 表示 index(拆分数据用的index序列)


解释名词

SBS:边合成边测序反应,每次SBS会延伸一个碱基,大约耗时70分钟。

Run:单次上机测序反应,可以产生4G-75G测序通量不等。

Lane:单泳道,每条泳道可以直接物理区分测序样品,1次run最多可以同时上样8条Lane。

Channel:Lane的同义词。

Tile:每次荧光扫描的最小单位,小区,每条Lane中排有2列tile,合计120个小区。每个小区上分布数目繁多的簇结合位点。

Cluster:簇,在Solexa测序技术中会采用桥式PCR方式生产DNA簇,每个DNA簇才能产生亮度达到CCD可以分辨的荧光点。

Index:标签,在Solexa多重测序(Multiplexed Sequencing)过程中会使用Index来区分样品,并在常规测序完成后,针对Index部分额外进行7个循环的测序,通过Index的识别,可以在1条Lane中区分12种不同的样品。

Barcode: Index同义词

Hiseq 2000 与 2500比较:

2000的通量600G/RUN,2500的通量120G/RUN

2000有2个flowcell,每个flowcell8个lane

2500的也是2个flowcell,快速模式中每个flowcell2个lane,每个lane产出30G数据量

相关文章
|
5月前
|
缓存 监控 Ubuntu
Ubuntu操作系统下清除系统缓存与无用文件的方法
通过上述步骤断行综合性地对Ubuntu进行优化与整洁可显著改善其性能表现及响应速度。然而,请注意在执行某些操作前确保充分了解其潜在影响;例如,在移除旧内核之前确认新内核稳定运行无问题;而对于关键配置更改则需确保备份好相关设置以便恢复原状态。
1010 0
|
Dubbo Java 应用服务中间件
IntelliJ IDEA & Apache Dubbo,IDEA 官方插件正式发布!
IntelliJ IDEA & Apache Dubbo,IDEA 官方插件正式发布!
1654 84
|
Rust API 开发工具
Rust初学者,边学边写的OSS的sdk,欢迎批评指正 :)
`Rust`语言编写的阿里云OSS的SDK,依据官方文档并参考了其他语言的实现。
1041 5
Rust初学者,边学边写的OSS的sdk,欢迎批评指正 :)
|
11月前
|
搜索推荐 数据挖掘
优质网络舆情监测系统大盘点
一款出色的网络舆情监测系统,不仅能够助力相关主体迅速捕捉舆情信息,有效应对危机,还能够助力其更好地把握舆论动态,维护自身形象。那么,市场上有哪些比较好的网络舆情监测系统呢?这里,本文有为各位整理了一些好用的舆情检测系统,以供各位参考!
485 0
|
IDE Java 应用服务中间件
Java“NoSuchFieldError”解决
“NoSuchFieldError”是Java中常见的运行时错误,通常由于访问不存在的类字段引起。解决方法包括:检查字段拼写、确保类路径正确、更新依赖库版本等。
1740 4
|
监控 安全 API
拥抱开源:下一代API管理工具Kong的崛起
【10月更文挑战第27天】在微服务架构和API经济的推动下,API管理成为软件开发的关键环节。Kong作为开源的API管理平台,凭借其灵活性和强大功能,受到开发者的青睐。本文探讨了Kong的核心特性、使用技巧及其在企业中的应用,帮助读者更好地理解和利用这一工具。
|
语音技术 计算机视觉 开发者
多模态模型评测框架lmms-eval发布!全面覆盖,低成本,零污染
【9月更文挑战第15天】LMMS-EVAL 是一项由多家研究机构联合开发的多模态模型评测框架,旨在为大型多模态模型提供全面、低成本且零污染的评测基准。该框架包含超过50个任务和10多个模型,覆盖图像分类、目标检测、语音识别等多个领域,使研究人员能够在有限资源下轻松评估和比较模型性能。通过利用实时更新的数据源,LMMS-EVAL 还确保了模型在真实世界中的泛化能力。论文地址: https://arxiv.org/abs/2407.12772
591 5
|
数据采集 安全 测试技术
Burpsuite Scanner被动扫描生成安全评估报告
Burpsuite Scanner被动扫描生成安全评估报告
|
监控 负载均衡 测试技术
大模型开发:描述一个你之前工作中的模型部署过程。
完成大型语言模型训练后,经过验证集评估和泛化能力检查,进行模型剪枝与量化以减小规模。接着导出模型,封装成API,准备服务器环境。部署模型,集成后端服务,确保安全,配置负载均衡和扩容策略。设置监控和日志系统,进行A/B测试和灰度发布。最后,持续优化与维护,根据线上反馈调整模型。整个流程需团队协作,保证模型在实际应用中的稳定性和效率。
663 3