简化基因组的测序方法

简介: RAD-Seq(restriction site-associated DNA sequencing)最开始指的是2008年发表在PLOS ONE上“Rapid SNP discovery and genetic mapping using sequenced RAD markers"提出的方法,目前该文章的引用已经达到1200+,现在指代的是一系列基于限制性内切酶的测序技术。

RAD-Seq(restriction site-associated DNA sequencing)最开始指的是2008年发表在PLOS ONE上“Rapid SNP discovery and genetic mapping using sequenced RAD markers"提出的方法,目前该文章的引用已经达到1200+,现在指代的是一系列基于限制性内切酶的测序技术。同样在概念上被引申的还有GBS(genotyping-by-sequencing),只不过GBS的名字不能让你直接把它和限制性内切酶联想起来.总之,如果现在公司给你推荐GBS或RAD-seq时,可能未必和你想的一样,你需要仔细问下他们的建库手段。毕竟手段不同,你的实验设计,操作和结果都会发生变化。这是RAD-seq相关方法的历年引用情况

img_8dd685250c76451949aae458c816b3ff.jpe
不同RAD-seq技术引用情况

RAD-seq虽说方法很多,但是文库构建流程大致如下,不同方法在其中某些步骤存在差异

  • 起始基因组DNA量:能否允许降解FNA
  • 限制性内切酶酶解:限制酶种类,数量
  • 酶切位点结合接头:接头类型
  • 酶解片段大小选择:直接选择,间接选择
  • 添加barcode混池:视v接头而异
  • 测序类型选择:单端,双端

两者的差异在于,1)是现进行酶切然后随机破碎,最后仅选择存在酶切位点片段测序;2)也是酶切,但是后续直接选择合适大小的片段测序。

因此相对于1)测序的位点平均会少一点,也就会导致同一批样本后者利用率低于前者。无参考基因组更推荐前者,而不是后者。

img_8d8dfa0df1b2694b7ad775de12ede9a0.jpe
不同方法的数据利用率

原始RAD-seqs

最先提出的RAD-seq技术流程,也就是RAD-seq的冠名技术,分为如下几步:

  1. 基因组DNA用限制性内切酶裂解, 然后连接到P1接头。P1接头里含有正向扩增和Illumina测序引物位点,以及4~5 bp 的核酸barcode. barcode至少大于3 bp。
  2. 之后接头连接的片段(adapter-ligated fragments)混池,随机打断
  3. DNA随后连接到P2接头,反向扩增扩展引物无法连接P2. P2是一种Y型接头,包含P2反向扩增引物位点的反向互补序列,使得不含P1接头的片段无法扩增。(Y型接头的工作原理)
  4. 最后仅有同时含P1和P2接头的片段能够上机测序。
img_7ca3dbc371fdfc4310284862aa047137.jpe
RAD-seq protocol

Genotyping-by-Sequencing

GBS比原始的RAD-seq步骤更加简单

  1. 将不同样本和含不同barcode接头成对放在平板里
  2. 使用ApeKI限制酶进行酶解
  3. 使用T4连接酶,将接头连接到片段两端因酶切产生的粘末端(stcky end)
  4. 将含不同barcode的样本混池,随后过片段长度筛选柱,过滤尚未反应的接头
  5. 加入PCR引物,进行PCR扩增

这里没有直接对片段进行筛选,但是PCR扩增时优先扩增小片段

img_1a360f0b50bbc30884274e32e8ffb624.jpe
Genotyping-by-Sequencing流程

ddRAD-seq

ddRAD-seq和GBS相似,两者都不需要在加接头后进行随机打碎,GBS通过PCR扩增的方式过滤了大片段,而ddRAD-seq通过双酶切的方式,然后筛选固定长度来选择合适大小的片段

img_cfd6d60bf0129819706f8c5890e667f5.jpe
ddRAD-seq和RAD-seq的不同

常见方法的比较

其实这些RAD-seq文库制备方法可以简单的分为两类:

  • 1)对单酶切位点邻近片段测序,如最初的RAD-seq
  • 2)对酶切位点两翼片段测序,如Genoytping-by-Sequencing

下面是常见的物RAD-seq方法比较

方法 原始RAD 2bRAD GBS ddRAD ezRAD
控制位点的方法 选择限制酶 选择限制酶 选择限制酶 选择限制酶和片段大小选择阈值 选择限制酶和片段大小选择阈值
位点数/Mb 30~500 50~1000 5~40 0.3~200 10~800
位点长度 300bp 或1kb contig 33–36 bp < 300 bp < 300 bp <300 bp
barcode费用/样本
添加barcode难度/样本 中等
是否用到专利试剂盒
识别PCR重复 使用双端测序 不能 使用降解的barcode 用降解的barcode 不能
特殊的设备 超声破碎仪 Pippin Prep或普通的跑胶仪 Pippin Prep或普通的跑胶仪
是否适用复杂和大基因组 中等
是否适用无参考基因组 中等 中等 中等

参考文献

  • RAD-seq: Rapid SNP discovery and genetic mapping using sequenced RAD markers
  • GBS: A Robust, Simple Genotyping-by-Sequencing (GBS) Approach for High Diversity Species
  • ddRAD-seq: Double Digest RADseq: An Inexpensive Method for De Novo SNP Discovery and Genotyping in Model and Non-Model Species
  • 2011 NATURE REVIEWS | GENETICS:Genome-wide genetic marker discovery and genotyping using next-generation
  • 2016 NATURE REVIEWS | GENETICS:Harnessing the power of RADseq for ecological and evolutionary genomics
目录
相关文章
|
6月前
|
安全
三维基因组|基因组结构 (2)
三维基因组|基因组结构 (2)
61 0
|
6月前
|
芯片
基因测序的原理是什么
基因测序的原理是什么
|
6月前
|
数据挖掘 数据库
基因测序的业务流程
基因测序的业务流程
|
算法 芯片
DNA测序原理:illumina和Pacbio对比介绍
DNA测序原理:illumina和Pacbio对比介绍
|
机器学习/深度学习 安全 数据挖掘
用于 DNA 测序的机器学习模型,理论上可以解码任何测序读数中所编码的数据值
用于 DNA 测序的机器学习模型,理论上可以解码任何测序读数中所编码的数据值
169 0
用于 DNA 测序的机器学习模型,理论上可以解码任何测序读数中所编码的数据值
|
数据可视化 数据挖掘 Python
跟着Science学数据分析:利用三代测序数据(PacBio)鉴定结构变异
跟着Science学数据分析:利用三代测序数据(PacBio)鉴定结构变异
|
算法 索引 Python
宏基因组之基因组装
宏基因组组装,即把短的reads拼装成连续的序列contig,再根据PE等关系将contig拼装成scaffold。与单个基因组组装不同,宏基因组组装最终得到的是环境样品中全部微生物的混合scaffold。理想情况下一条scaffold对应一个物种的全基因组。但由于序列太短或者覆盖度不够,很难拼出一条完整的基因组。针对高通量测序数据,出现了多种拼接算法和软件。
520 0
|
数据库 网络架构 索引
宏基因组之基因丰度计算
目前有两种方式可计算宏基因组基因的丰度,一种是基于比对,比如bwa,bowtie,soapaligner等主流的比对软件,另一种是不比对快速估计基因丰度,可以用近俩年来流行的salmon软件,这个软件在转录组的数据比对中也经常用到,可以直接计算出原始的Counts值和标准化的TPM值,此外由于是基于非比对,计算的速度得到很大的提升,同时也节省了部分的内存(少了庞大的sam/bam文件),可以说是多快好省,但是目前的高分文章中也还是不少用基于比对的方法去计算宏基因组的基因丰度的,下面我就分别简单介绍一下基于比对的soapaligner和不比对快速估计的samlon俩个软件的操作流程!!
779 0
|
数据采集 算法
测序质控和基因组组装原理
测序质控和基因组组装原理
|
数据采集 设计模式 存储
全基因组重测序流程【超细致!!】
全基因组重测序流程【超细致!!】