漫谈高通量测序（3）Illumina文库构建-阿里云开发者社区

漫谈高通量测序（3）Illumina文库构建

2023-02-09 470

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 漫谈高通量测序（3）Illumina文库构建

写在前面的话，最近一个讲座中，饶毅老师作为嘉宾点评，饶老师的精彩点评让我受益良多，在评价达尔文的时候，饶老师锐评达尔文只是做了一些数据的搜集工作，总结了一下而已，比起孟德尔他的工作看起来像一个文科生，并且由于达尔文智商不足，在晚年竟然试图从拉马克的学说中寻找答案。这让我大为震撼，反过头来想一想我热衷的测序技术属于什么，测序技术不就是帮助达尔文们搜集更多的数据吗。所以今天就以一个文科生的角度来总结一下Illumina文库构建的原理和一些常见问题的解释。

文库构建流程

由于二代测序读长较短，所以采用“鸟枪法”的策略，即先讲基因组打断为一定长度的片段（300-400bp）；然后连接测序接头，这一步是由于打断的片段都是未知的，SBS的测序方法是需要测序引物去结合启动，测序接头就扮演了这个作用，并且可以通过添加不同的index作为拆分混合文库中的标签；连接完接头后如果文库浓度较低，无法满足上机要求，还需要进行文库富集，也就是PCR扩增；最后一步进行纯化与分选，分选出所需要大小的文库和去除文库中的各类酶和离子。

9929c33ffb0ca8072987af3205a5933a_640_wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1.png

鸟枪法策略

Illumina的核心专利之一——Y型接头

Y型接头，故名思意，长的和字母Y一样。在接头的末端，碱基是不互补的。如下图当我们进行建库的时候，会在reads的两端加上不同的adapter。这里我们把两个adapters称为A和B。当我们加上接头之后，会出现三种不同的情况：

A--reads--B (这种情况使得reads含有方向性信息)
A--reads--A
B--reads--B

显然，后两种情况是无法进行PCR扩增的。但是常规的adapter无法避免这种情况的存在，但是有了Y型adapter，就可以保证只出现第一种情况。

30c50918b0182ef56efbe4ff7f820ad5_640_wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1.png

Y型adapter

NGS数据中的Duplicates reads重复序列问题

我们在数据分析中经常涉及到去Dup的问题，所以这里介绍一下最终数据中Dup的来源。测序产生的Dup reads来源主要有以下几个方面：

样本本身的Dup；
文库构建中扩增引入的Dup；（文库PCR）
测序前信号放大（荧光信号采集单元生成过程）引入的Dup；（桥式PCR）
芯片测序过程中引入的光学Dup

大部分人认为NGS数据的Dup主要来自于上述第2种，这也是为什么很多人热衷于PCR-free建库的原因，其实真实情况应该是来自3.荧光信号采集单元生成的过程中引入的Dup和4.芯片测序过程中引入的光学Dup占据了主要部分。我们通常认为理论情况下PCR扩增6个循环已经把样本分子数量放大64倍（2^6=64），最起码也是20-30倍（如按照1.6-1.7的扩增效率计算）。这些PCR扩增产生了Dup reads理论上应该体现在最终的测序Reads中，约占（19/20）×100% ~（29/30） ×100%,这样算来应该是高达96%以上Dup rate？但我们日常实测数据来看并没有这么高。那么问题来了，“PCR放大成百上千倍，为什么NGS的Dup rate只有十位数甚至是个位数呢？虽然PCR将待测分子放大了成百上千倍（1010），但是用于捕获文库的flow cell（108）的数量远远少与PCR分子，所以就成为一个随机抽样问题。一个分子能在茫茫人海中被1个孔随机选中已是万幸，更何况是再次随机选中同一个PCR Copy形成Dup呢？

3068f98bf36f01e747c39935ee67c069_640_wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1.png flow cell

“马拉松效应”

桥式PCR（Bridge PCR）是Illumina所采用的“碱基信号采集单元”制备技术，由上期公众号推文我们可以得知“碱基信号采集单元”都是由1条“祖先”核酸分子利用上述的扩增技术形成的“单分子”多拷贝核酸分子集。多拷贝碱基信号采集单元大大增加了碱基信号强度，使其更容易被检测器（相机、CMOS传感器）捕捉和识别，但也正是因为它的“多拷贝”使得该类技术的测序读长受到了很大的限制。 Illumina采取的是SBS（边合成边测序）的方案来实现核苷酸序列的读取，即在每一轮反应添加一个碱基，拍照记录后再将碱基3’端的封闭去除，进行下一个碱基的添加（第一期公众号有介绍）。所以会出现一个问题，任何生化反应都不是100%的，在每一轮的聚合反应中，同一个“碱基信号采集单元”内不同核酸分子的“碱基延伸”并非完全同步，可能会有个别的核酸分子未发生预期的聚合延伸或者发生了未预期的大于1次的聚合延伸反应，从而在后续的测序循环中持续产生“滞后信号”（Phasing或称Lag）或者 “超前信号”（Pre-phasing或称Runon）。这就像一场马拉松比赛，大家虽然是一起出发的，但是随着比赛的进行，有些选手冲到前面，有些选手落到了后面。同理在二代测序中，随着反应的进行，会逐步积累错误，导致光学信号噪音的增强，直至机器无法准确识别。所以二代测序技术特有的“马拉松效应”成为了限制其测序读长的主要原因。

56d4c258aa0e26d9b3299ddf74fcd9e3_640_wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1.png