漫谈高通量测序(3)Illumina文库构建

简介: 漫谈高通量测序(3)Illumina文库构建

写在前面的话,最近一个讲座中,饶毅老师作为嘉宾点评,饶老师的精彩点评让我受益良多,在评价达尔文的时候,饶老师锐评达尔文只是做了一些数据的搜集工作,总结了一下而已,比起孟德尔他的工作看起来像一个文科生,并且由于达尔文智商不足,在晚年竟然试图从拉马克的学说中寻找答案。这让我大为震撼,反过头来想一想我热衷的测序技术属于什么,测序技术不就是帮助达尔文们搜集更多的数据吗。所以今天就以一个文科生的角度来总结一下Illumina文库构建的原理和一些常见问题的解释。

文库构建流程

由于二代测序读长较短,所以采用“鸟枪法”的策略,即先讲基因组打断为一定长度的片段(300-400bp);然后连接测序接头,这一步是由于打断的片段都是未知的,SBS的测序方法是需要测序引物去结合启动,测序接头就扮演了这个作用,并且可以通过添加不同的index作为拆分混合文库中的标签;连接完接头后如果文库浓度较低,无法满足上机要求,还需要进行文库富集,也就是PCR扩增;最后一步进行纯化与分选,分选出所需要大小的文库和去除文库中的各类酶和离子。

9929c33ffb0ca8072987af3205a5933a_640_wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1.png

鸟枪法策略

Illumina的核心专利之一——Y型接头

Y型接头,故名思意,长的和字母Y一样。在接头的末端,碱基是不互补的。如下图 当我们进行建库的时候,会在reads的两端加上不同的adapter。这里我们把两个adapters称为A和B。当我们加上接头之后,会出现三种不同的情况:

  1. A--reads--B (这种情况使得reads含有方向性信息)
  2. A--reads--A
  3. B--reads--B

显然,后两种情况是无法进行PCR扩增的。但是常规的adapter无法避免这种情况的存在,但是有了Y型adapter,就可以保证只出现第一种情况。

30c50918b0182ef56efbe4ff7f820ad5_640_wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1.png

Y型adapter

NGS数据中的Duplicates reads重复序列问题

我们在数据分析中经常涉及到去Dup的问题,所以这里介绍一下最终数据中Dup的来源。测序产生的Dup reads来源主要有以下几个方面:

  1. 样本本身的Dup;
  2. 文库构建中扩增引入的Dup;(文库PCR)
  3. 测序前信号放大(荧光信号采集单元生成过程)引入的Dup;(桥式PCR)
  4. 芯片测序过程中引入的光学Dup

大部分人认为NGS数据的Dup主要来自于上述第2种,这也是为什么很多人热衷于PCR-free建库的原因,其实真实情况应该是来自3.荧光信号采集单元生成的过程中引入的Dup和4.芯片测序过程中引入的光学Dup占据了主要部分。 我们通常认为理论情况下PCR扩增6个循环已经把样本分子数量放大64倍(2^6=64),最起码也是20-30倍(如按照1.6-1.7的扩增效率计算)。这些PCR扩增产生了Dup reads理论上应该体现在最终的测序Reads中,约占(19/20)×100% ~(29/30) ×100%,这样算来应该是高达96%以上Dup rate?但我们日常实测数据来看并没有这么高。那么问题来了,“PCR放大成百上千倍,为什么NGS的Dup rate只有十位数甚至是个位数呢? 虽然PCR将待测分子放大了成百上千倍(1010),但是用于捕获文库的flow cell(108)的数量远远少与PCR分子,所以就成为一个随机抽样问题。一个分子能在茫茫人海中被1个孔随机选中已是万幸,更何况是再次随机选中同一个PCR Copy形成Dup呢?

3068f98bf36f01e747c39935ee67c069_640_wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1.pngflow cell

“马拉松效应”

桥式PCR(Bridge PCR)是Illumina所采用的“碱基信号采集单元”制备技术,由上期公众号推文我们可以得知“碱基信号采集单元”都是由1条“祖先”核酸分子利用上述的扩增技术形成的“单分子”多拷贝核酸分子集。多拷贝碱基信号采集单元大大增加了碱基信号强度,使其更容易被检测器(相机、CMOS传感器)捕捉和识别,但也正是因为它的“多拷贝”使得该类技术的测序读长受到了很大的限制。 Illumina采取的是SBS(边合成边测序)的方案来实现核苷酸序列的读取,即在每一轮反应添加一个碱基,拍照记录后再将碱基3’端的封闭去除,进行下一个碱基的添加(第一期公众号有介绍)。 所以会出现一个问题,任何生化反应都不是100%的,在每一轮的聚合反应中,同一个“碱基信号采集单元”内不同核酸分子的“碱基延伸”并非完全同步,可能会有个别的核酸分子未发生预期的聚合延伸或者发生了未预期的大于1次的聚合延伸反应,从而在后续的测序循环中持续产生“滞后信号”(Phasing或称Lag)或者 “超前信号”(Pre-phasing或称Runon)。 这就像一场马拉松比赛,大家虽然是一起出发的,但是随着比赛的进行,有些选手冲到前面,有些选手落到了后面。同理在二代测序中,随着反应的进行,会逐步积累错误,导致光学信号噪音的增强,直至机器无法准确识别。所以二代测序技术特有的“马拉松效应”成为了限制其测序读长的主要原因。

56d4c258aa0e26d9b3299ddf74fcd9e3_640_wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1.png

马拉松效应

参考文献:

https://en.wikipedia.aufe.cf/wiki/DNA_sequencing

https://biomedicalhub.github.io/genomics/01-part1-introduction.html

https://support.illumina.com/downloads/illumina-adapter-sequences-document-1000000002694.html


相关文章
|
6月前
|
数据挖掘 数据库
略微学习一下二区4.5分纯生信,单基因肺结核叶酸基因集+泛癌分析
研究摘要: 一项发表于2023年《MEDIATORS OF INFLAMMATION》杂志的文章发现,RTP4基因可能成为诊断肺结核的新生物标志物。研究者通过分析GEO数据库中的多个微阵列数据集,使用WGCNA方法识别与肺结核和叶酸生物合成相关的基因模块。RTP4在健康与肺结核患者间的表达有显著差异,并且在抗结核治疗前后表达量变化。泛癌分析显示,RTP4在不同肿瘤类型中的表达与预后关联不一,提示其可能在多种癌症中具有重要功能。这些发现支持RTP4作为诊断工具的潜力,并为进一步研究其在结核病和癌症中的作用奠定了基础。
87 1
|
数据采集 芯片
GWAS全基因组关联分析入门教程
GWAS全基因组关联分析入门教程
|
网络协议 大数据 数据挖掘
文献丨多组学大数据构建小麦穗发育转录调控网络,TRN+GWAS挖掘关键转录调控(二)
文献丨多组学大数据构建小麦穗发育转录调控网络,TRN+GWAS挖掘关键转录调控(二)
|
5月前
|
消息中间件 机器学习/深度学习 算法
程序与技术分享:02Prodigal基因预测
程序与技术分享:02Prodigal基因预测
111 2
|
2月前
|
存储 数据挖掘
单细胞|线粒体基因型和DNA可及性联合分析
单细胞|线粒体基因型和DNA可及性联合分析
79 15
单细胞|线粒体基因型和DNA可及性联合分析
|
数据可视化 大数据 数据挖掘
文献丨多组学大数据构建小麦穗发育转录调控网络,TRN+GWAS挖掘关键转录调控(三)
文献丨多组学大数据构建小麦穗发育转录调控网络,TRN+GWAS挖掘关键转录调控(三)
|
大数据 数据挖掘 Go
文献丨多组学大数据构建小麦穗发育转录调控网络,TRN+GWAS挖掘关键转录调控(一)
文献丨多组学大数据构建小麦穗发育转录调控网络,TRN+GWAS挖掘关键转录调控
漫谈高通量测序(1)历史与发展
漫谈高通量测序(1)历史与发展
326 0
漫谈高通量测序(1)历史与发展
|
数据库
生信分析|基因组倍型鉴定
生信分析|基因组倍型鉴定
179 0
|
算法 Linux Shell
干货丨 一文详解SGAT单基因关联分析工具
干货丨 一文详解SGAT单基因关联分析工具
下一篇
无影云桌面