漫谈高通量测序(3)Illumina文库构建

简介: 漫谈高通量测序(3)Illumina文库构建

写在前面的话,最近一个讲座中,饶毅老师作为嘉宾点评,饶老师的精彩点评让我受益良多,在评价达尔文的时候,饶老师锐评达尔文只是做了一些数据的搜集工作,总结了一下而已,比起孟德尔他的工作看起来像一个文科生,并且由于达尔文智商不足,在晚年竟然试图从拉马克的学说中寻找答案。这让我大为震撼,反过头来想一想我热衷的测序技术属于什么,测序技术不就是帮助达尔文们搜集更多的数据吗。所以今天就以一个文科生的角度来总结一下Illumina文库构建的原理和一些常见问题的解释。

文库构建流程

由于二代测序读长较短,所以采用“鸟枪法”的策略,即先讲基因组打断为一定长度的片段(300-400bp);然后连接测序接头,这一步是由于打断的片段都是未知的,SBS的测序方法是需要测序引物去结合启动,测序接头就扮演了这个作用,并且可以通过添加不同的index作为拆分混合文库中的标签;连接完接头后如果文库浓度较低,无法满足上机要求,还需要进行文库富集,也就是PCR扩增;最后一步进行纯化与分选,分选出所需要大小的文库和去除文库中的各类酶和离子。

9929c33ffb0ca8072987af3205a5933a_640_wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1.png

鸟枪法策略

Illumina的核心专利之一——Y型接头

Y型接头,故名思意,长的和字母Y一样。在接头的末端,碱基是不互补的。如下图 当我们进行建库的时候,会在reads的两端加上不同的adapter。这里我们把两个adapters称为A和B。当我们加上接头之后,会出现三种不同的情况:

  1. A--reads--B (这种情况使得reads含有方向性信息)
  2. A--reads--A
  3. B--reads--B

显然,后两种情况是无法进行PCR扩增的。但是常规的adapter无法避免这种情况的存在,但是有了Y型adapter,就可以保证只出现第一种情况。

30c50918b0182ef56efbe4ff7f820ad5_640_wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1.png

Y型adapter

NGS数据中的Duplicates reads重复序列问题

我们在数据分析中经常涉及到去Dup的问题,所以这里介绍一下最终数据中Dup的来源。测序产生的Dup reads来源主要有以下几个方面:

  1. 样本本身的Dup;
  2. 文库构建中扩增引入的Dup;(文库PCR)
  3. 测序前信号放大(荧光信号采集单元生成过程)引入的Dup;(桥式PCR)
  4. 芯片测序过程中引入的光学Dup

大部分人认为NGS数据的Dup主要来自于上述第2种,这也是为什么很多人热衷于PCR-free建库的原因,其实真实情况应该是来自3.荧光信号采集单元生成的过程中引入的Dup和4.芯片测序过程中引入的光学Dup占据了主要部分。 我们通常认为理论情况下PCR扩增6个循环已经把样本分子数量放大64倍(2^6=64),最起码也是20-30倍(如按照1.6-1.7的扩增效率计算)。这些PCR扩增产生了Dup reads理论上应该体现在最终的测序Reads中,约占(19/20)×100% ~(29/30) ×100%,这样算来应该是高达96%以上Dup rate?但我们日常实测数据来看并没有这么高。那么问题来了,“PCR放大成百上千倍,为什么NGS的Dup rate只有十位数甚至是个位数呢? 虽然PCR将待测分子放大了成百上千倍(1010),但是用于捕获文库的flow cell(108)的数量远远少与PCR分子,所以就成为一个随机抽样问题。一个分子能在茫茫人海中被1个孔随机选中已是万幸,更何况是再次随机选中同一个PCR Copy形成Dup呢?

3068f98bf36f01e747c39935ee67c069_640_wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1.pngflow cell

“马拉松效应”

桥式PCR(Bridge PCR)是Illumina所采用的“碱基信号采集单元”制备技术,由上期公众号推文我们可以得知“碱基信号采集单元”都是由1条“祖先”核酸分子利用上述的扩增技术形成的“单分子”多拷贝核酸分子集。多拷贝碱基信号采集单元大大增加了碱基信号强度,使其更容易被检测器(相机、CMOS传感器)捕捉和识别,但也正是因为它的“多拷贝”使得该类技术的测序读长受到了很大的限制。 Illumina采取的是SBS(边合成边测序)的方案来实现核苷酸序列的读取,即在每一轮反应添加一个碱基,拍照记录后再将碱基3’端的封闭去除,进行下一个碱基的添加(第一期公众号有介绍)。 所以会出现一个问题,任何生化反应都不是100%的,在每一轮的聚合反应中,同一个“碱基信号采集单元”内不同核酸分子的“碱基延伸”并非完全同步,可能会有个别的核酸分子未发生预期的聚合延伸或者发生了未预期的大于1次的聚合延伸反应,从而在后续的测序循环中持续产生“滞后信号”(Phasing或称Lag)或者 “超前信号”(Pre-phasing或称Runon)。 这就像一场马拉松比赛,大家虽然是一起出发的,但是随着比赛的进行,有些选手冲到前面,有些选手落到了后面。同理在二代测序中,随着反应的进行,会逐步积累错误,导致光学信号噪音的增强,直至机器无法准确识别。所以二代测序技术特有的“马拉松效应”成为了限制其测序读长的主要原因。

56d4c258aa0e26d9b3299ddf74fcd9e3_640_wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1.png

马拉松效应

参考文献:

https://en.wikipedia.aufe.cf/wiki/DNA_sequencing

https://biomedicalhub.github.io/genomics/01-part1-introduction.html

https://support.illumina.com/downloads/illumina-adapter-sequences-document-1000000002694.html


相关文章
|
关系型数据库 MySQL 索引
936. 【mysql】locate函数
936. 【mysql】locate函数
373 2
|
网络安全
sas9.4安装教程
sas9.4安装教程
956 0
漫谈高通量测序(1)历史与发展
漫谈高通量测序(1)历史与发展
558 0
漫谈高通量测序(1)历史与发展
|
11月前
|
机器学习/深度学习 人工智能 搜索推荐
《基因测序新视界:人工智能的关键赋能》
基因测序是解密生命密码的关键技术,开启了疾病诊断与个性化医疗的新纪元。然而,随着数据量的爆炸式增长,传统分析方法难以应对。人工智能(AI)凭借强大的模式识别和数据处理能力,在基因测序数据分析中崭露头角。AI不仅提高了疾病诊断的准确性和效率,还在药物研发、基因调控网络构建等领域发挥了重要作用。通过AI,研究人员能快速筛选药物靶点、预测药物反应,并揭示基因间的复杂调控机制。此外,AI在群体遗传学和进化生物学中的应用也取得了显著进展。尽管面临数据隐私和模型可解释性等挑战,AI已成为推动基因测序分析发展的关键力量,为人类健康和生命科学带来革命性变化。
340 18
|
12月前
|
Cloud Native 持续交付 云计算
云计算的转型之路:探索云原生架构的崛起与实践####
随着企业数字化转型加速,云原生架构以其高效性、灵活性和可扩展性成为现代IT基础设施的核心。本文深入探讨了云原生技术的关键要素,包括容器化、微服务、持续集成/持续部署(CI/CD)及无服务器架构等,并通过案例分析展示了这些技术如何助力企业实现敏捷开发、快速迭代和资源优化。通过剖析典型企业的转型经历,揭示云原生架构在应对市场变化、提升业务竞争力方面的巨大潜力。 ####
255 27
|
12月前
|
人工智能 搜索推荐 API
Perplexica:开源 AI 搜索引擎,Perplexity AI 的开源替代品,支持多种搜索模式、实时信息更新
Perplexica 是一款开源的 AI 驱动搜索引擎,支持多种搜索模式和实时信息更新,适用于个人、学术和企业等不同场景。
1144 6
Perplexica:开源 AI 搜索引擎,Perplexity AI 的开源替代品,支持多种搜索模式、实时信息更新
|
12月前
|
Ubuntu Linux Shell
Sentieon软件快速入门指南
Sentieon为纯CPU计算加速软件,完全适配主流CPU计算架构:Intel、AMD、海光等X86架构CPU,华为鲲鹏、阿里倚天等ARM架构CPU。可灵活部署在实验室单机工作站、HPC集群、超算中心和云计算中心,保持同一套流程下不同规模数据计算结果的一致性。Sentieon软件团队拥有丰富的软件开发及算法优化工程经验,致力于解决生物数据分析中的速度与准确度瓶颈,为来自于分子诊断、药物研发、临床医疗、人群队列、动植物等多个领域的合作伙伴提供高效精准的软件解决方案,共同推动基因技术的发展。
458 4
Sentieon软件快速入门指南
|
存储 Perl
如何使用awk处理CSV文件?
【10月更文挑战第16天】如何使用awk处理CSV文件?
417 3
|
存储 算法 安全
|
Linux iOS开发 MacOS
【随手记】maplotlib.use函数设置图像的呈现方式
【随手记】maplotlib.use函数设置图像的呈现方式
250 0