Hi-C背景了解

简介: 前五篇

题目:Chromosome-scale scaffolding of de novo genome assemblies based on chromatin interactions

(基于染色质相互作用的基因组组装的染色体规模脚手架)

作者:Joshua N. Burton1, Andrew Adey1, Rupali P. Patwardhan1, Ruolan Qiu1, Jacob O.Kitzman1, and Jay Shendure1

发表时间:2013年

摘要:从短reads重新组装的基因组是高度碎片化的,为了解决这个问题,就需要可拓展,经济有效的方法来实现染色体规模的连续性。

such as those generated by Hi-C,are a rich source of long-range information for assigning, ordering and orienting genomic sequences to chromosomes, including across centromeres.

Hi-C生成的数据集,是染色体基因组序列分配,排序和定位的远程信息的丰富来源

To exploit this, we developed an
algorithm that uses Hi-C data for ultra-long-range scaffolding of de novo genome assemblies

使用Hi-C数据来构建全基因组组装的超远程支架。

将短序列与Hi-C数据相结合,重新组装人类、小鼠和果蝇的染色体,在染色体中分配支架的准确率达到了98%,在染色体中排列和定位支架的准确率为99%。

Hi-C也可用于验证癌症基因组中的染色体易位

重要的是要认识到,HGP基因组组合的高质量不仅仅取决于Sanger测序读取的长度和准确性。

Hi-C and related protocols use proximity ligation and massively parallel sequencing to probe the three-dimensional architecture of chromosomes within the nucleus, with interacting regions captured to paired-end reads.

Hi-C和相关协议使用邻近连接和大规模平行测序来探测细胞核内染色体的三维结构,并捕捉到成对端读reads的相互作用区域。

根据得到的数据集,染色体内接触的概率平均要比染色体间接触的概率高得多

We speculated that genome-wide chromatin interaction datasets, such as those generated by Hi-C, might provide long-range information about the grouping and linear organization of sequences along entire chromosomes.

我们推测全基因组染色质相互作用数据集,如由Hi-C生成的数据集,可能提供关于整个染色体序列的分组和线性组织的长期信息。

In exploring this, we developed LACHESIS (ligating adjacent chromatin enables scaffolding in situ), a computational method that exploits the signal of genomic proximity in Hi-C datasets for ultra-long-range scaffolding of de novo genome assemblies.

为了探索这个问题,开发了LACHESIS(连接相邻染色质使原位支架成为可能),这是一种利用Hi-C数据集中基因组邻近性信号的计算方法,用于全新基因组组装的超远程支架。

image

聚类——》排序——》分方向(contigs聚类到染色体组,)

Hi-C数据可以用来验证癌症基因组中的染色体重排。

Results:

介绍了整个LACHESIS的过程。

整理于2021/10/4


题目:Whole-genome haplotype reconstruction using proximityligation and shotgun sequencing

使用近距离连接和散弹枪?测序进行全基因组单倍型/单倍体重建

作者:Siddarth Selvaraj, Jesse R Dixon, Vikas Bansal, and Bing Ren

发表日期:2013年

摘要:

Rapid advances in high-throughput sequencing facilitate variant discovery and genotyping, but
linking variants into a single haplotype(单倍型) remains challenging.

高通量测序的快速进展有助于发现变异和基因分型,但将变异连接成单一单倍型仍然具有挑战性。

这里提出一种方法:HaploSeq,该方法利用染色体领域的存在来组装染色体规模单倍型的方法。

作者通过邻近连接和测序表明了同源染色体上的等位基因占据不同的区域,因此该实验优先恢复同源物上物理连接的DNA变异。

邻近连接可用于单倍型重建的通用工具

Rapid progress in DNA shotgun sequencing technologies has enabled systematic identification of the genetic variants of an individual.

DNA shotgun测序技术可以系统识别个体的遗传变异。

获得一个个体的单倍型有如下作用:检测相关疾病,预测变异遗传是否有害,单倍型提供了关于种群结构和人类进化史的信息。

对于单倍体结构的理解对于描述导致等位基因失衡的变异机制十分重要。

综上了解,个体完整的单倍体结构对推进个性化医疗是十分重要的。

基于单倍体的重要性,一些研究小组已经试图在种群和个体水平上拓展我们对单倍型结构的理解。

目前有很多实验方法用于促进个体单倍型的直接定位,如长片段测序,配对测序等等。

这些方法最多能重建从几千个碱基到大约一个兆酶的单倍型,但没有一种能实现跨染色体单倍型(chromosome-spanning haplotypes).

DNA霰弹枪测序方法重建单倍型的一个重要因素是测序基因组片段的长度

本文通过描述一种单倍型的方法,该方法将近距离连接(邻近连接)和DNA测序技术与单倍型组装的概率算法相结合,也就是HaploSeq,用于使用邻近连接和测序进行单倍体分型。完整的单倍型是预先知道的。

该方法在小鼠中的准确率为99.5%。在人类细胞系中,我们将HaploSeq与局部条件相结合,仅使用17个基因组测序,就获得了~81%的分辨率和~98%的精度的染色体跨度单倍型。

结果表明了邻近连接与测序对于人类单倍型中的作用

Results:

HaploSeq的实验策略/方法

HaploSeq中,先使用先前建立的Hi-C协议进行近距离连接测序。该方法将不连续块中的变异连接起来,并将每个这样的块组装成一个单一的单倍型。

题目:Strain- and plasmid-level deconvolution of a synthetic metagenome by sequencing proximity ligation products

通过对邻近连接产物进行测序,对合成宏基因组进行菌株和质粒级解卷积

作者:ChristopherW. Beitel, Lutz Froenicke, Jenna M. Lang, Ian F. Korf,RichardW. Michelmore, Jonathan A. Eisen and Aaron E. Darling

2014年

摘要:

宏基因组学(metagenomics)是研究微生物群落(microbial communities)的宝贵工具,但由于难以将所得到的序列分箱成与构成群落的单个物种和菌株相对应的组,因此受到限制。但是目前还没有任何方法来跟踪移动DNA的流动,比如质粒在群落中的流动,或确定其中那些元素被共同定位在同一细胞内。我们通过采用Hi-C技术(最初设计被用于研究真核生物的三维基因组结构)来解决这些限制,来测量DNA序列的细胞共定位。我们利用一个简单的合成宏基因组样本生成的Hi-C数据,精确地将宏基因组的组装的contigs聚类到几乎包括每个物种所有基因的组。同时,Hi-C稳定地将质粒与其宿主的染色体彼此关联起来。我们进一步证明,Hi-C数据提供了菌株特异性基因型的长期信号,表明这些数据可能有助于微生物种群的高分辨率基因分型。我们的工作也证明了Hi-C测序数据为宏基因组分析提供了有价值的信息(这些信息不能通过其他方法来获得)也就是说能够获得其他方法所不能获得的信息。这种宏基因组Hi-C方法有助于进一步研究微生物的精细群体结构,以及抗生素耐药质粒(或其他遗传元素)如何在微生物群落中调动。该方法并不局限于微生物学,还可以研究其他异质细胞群体的遗传结构

关键词:Hi-C,微生物生态学、宏基因组学、质粒、合成微生物群落、马尔可夫聚类、宏基因组组装、单倍型分期、基因组支架(genome scaffolding)

引言:

微生物生态学是对微生物群落的组成、功能多样性、相互作用、稳定性和涌现特性的研究,了解微生物在生态系统中扮演的角色对于理解这些生态系统是如何运作的至关重要。易于培养的微生物估计占所有微生物物种的不到1%,这导致了研究微生物群落的培养独立方法的发展。目前基于测序的宏基因组学方法并没有捕捉到微生物群落中一些最丰富的遗传信息,特别是个体细胞中遗传物质的长程序列连续性和关联。在几乎所有的宏基因组方法中,微生物群落的细胞被集体裂解以获得大量的DNA样本。这导致来自许多不同细胞的DNA被混合在一起,因此单个细胞(单倍型)的基因型和物种身份消失了。染色体DNA随后被分割成碎片(500bp-40kbp,取决于测序策略),进一步减少连续性。

高通量单细胞基因组学(比如应用数千个细胞)为shotgun 宏基因组学提供了一个很有前途的选择,该宏基因组保存了遗传物质的细胞区隔化信息。这些方法对于外来DNA的无人非常敏感,因此需要使用专业的设备和试剂。

Long-read technologies测序有助于解决这一挑战,但是对于制作足够数量非常长的DNA片段来说是比较困难的。

计算方法通过将宏基因组装配组件按照物种分类,进而推断来自于宏基因组数据物种的邻近性。这些组装过程对分析构成了重大挑战。目前已经开发了几种方法:比较(comparative),组合(compositional)和组装(assembly)

比较:使用比对来引用序列,在现有分类学中将contigs分配物种。比较方法由于依赖于现有的分类法而受到限制。

组合:组合方法形成具有相似低聚物(4bp-8bp)组成的contigs簇,由于它的基本假设是具有相似序列组合的contigs属于一起。

水平基因转移(Horizontal gene transfer)使这两种分析方法复杂化,因为它可以从一个分类上具有不同寻常核苷酸组成的远亲引入基因内容。

组装(assembly):宏基因组组装可以被看做是一种binning的方法因为对于任何下游binning(downstream binning),放置在同一支架(scaffold)上的序列必然存在于同一个binning中。

宏基因组组装试图从成对和长读技术中推断序列邻接,这种方法受限于数据的可获得性,这些数据跨越了很多重复区域。

binning试图解决在DNA提取之前,确定同一物种的细胞存在哪些序列。我们认为这种共定位可以从Hi-C数据推断出来,这是一种最初为研究真核生物三维基因组结构而开发的方法。这种方法依靠物理上接近的交联分子,从而识别染色体内和染色体间的关联,反映了DNA在完整细胞核或无核细胞交联时的空间排列,我们预测,交联时不在同一细胞内的DNA序列不会交联在一起,也不应该与Hi-C reads相关联。

在这里,我们展示了hi - c作为解决微生物生态学中宏基因组分类和相关问题的工具的效用。

为此,我们首先构建了一个合成的微生物群落,通过培养和混合五个有参考基因组的生物体,然后,我们在这些生物体的基因组中模拟的序列上进行了宏基因组组装。

我们的第一个目标是使用合成微生物群落生成的Hi-C reads,根据物种对这些宏基因组组装序列进行分组,然后我们试图区分这一混合物中包含的两种密切相关的大肠杆菌菌株,为此,我们构建了重叠图和变异图,并对这些图进行分析,以描述hi - c数据可能在多大程度上解决了我们合成群落中存在的物种和菌株的基因型。

题目:Species-Level Deconvolution of Metagenome Assemblies with Hi-C–Based Contact Probability Maps

基于Hi-C接触概率图的宏基因组组装的物种级解卷积

作者:Joshua N. Burton,1 Ivan Liachko,1 Maitreya J. Dunham,2 and Jay Shendure2

年份:2014

摘要:

微生物群落由生物混合种群组成,包括丰度未知的未知物种。这些群落通常通过宏基因组shotgun测序进行研究,但标准的文库构建方法删除了远程邻接信息;因此,shotgun测序和重新组装宏基因组通常产生一个不容易按物种分组的contigs集合.用于生成染色质水平接触概率图的方法,例如由Hi-C方法生成的方法,提供了一个完全在细胞内且包含染色体内和染色体间信息的相邻信号。

利用基于 Hi-C 方法产生的染色体内和染色体间信息的细胞内相邻信号来重建混合样本中存在的微生物物种的个体基因组

我们将这种方法应用于两个合成的宏基因组样本,成功地聚类真菌、细菌和古菌物种的基因组含量,与已发表的参考基因组的一致性超过99%。我们还表明,Hi-C信号可以次级地用于创建微生物群落中存在的真核生物个体的scaffolded 基因组集合,其邻近度高于一些已公布的物种参考基因组。

引言:

地球上所有生态系统都包括微生物群落,包括我们自己的身体。然而,我们对微生物群落的理解能力是有限的,这些能力包括我们辨别它们包含哪些微生物类群,以及这些类群如何对群落规模的表型做出贡献。大多数微生物类群不能独立于它们的原生群落进行培养,因此不容易分离出来进行个体分析,例如通过基因组测序。这种不可培养的类群可能很难研究,即使它们很丰富。因此,许多微生物群落的分析必须将它们视为单个样本,例如,通过shotgun测序的宏基因组或元转录组。

分析宏基因组的一个核心挑战是确定哪些reads序列和/或序列contigs来自同一分类单元。通过将reads或contigs映射到已组装的微生物基因组,或通过分析碱基组成或基因丰度。然而,这些策略受到几乎所有微生物群落中不可培养物种的显著多样性和这些物种尚未被隔离测序的事实的阻碍(也就是说有些物种还没有被测序)。单个微生物基因组已经通过配偶文库、谱系特异性探针、单细胞测序、神经网络和微分覆盖装箱等方法从shotgun 宏基因组reads中解卷积。一些de novo组装软件也被用于预测宏基因组shotgun序列数据.这些方法已经成功地从一些群落中丰富的生物体中分离出完整的基因组,但它们是特定于它们被设计出来的群落的,通常需要事先了解群落的组成。宏基因组分析将大大受益于一种更一般化的方法,这种方法可以在不需要对这些生物的基因组,特别是低丰度分类单元的基因组的任何先验知识的情况下,识别属于每个分类单元的序列内容。如何进一步定义和组装组成每个物种基因组的一条或多条染色体,以及如何定义和分配一个或多个物种的质粒含量,是与确定哪些contigs属于同一物种有关的挑战。

为了能够从复杂的微生物群落中健壮地(鲁棒的意思?)重建个体基因组,需要标准shotgun测序库之外的额外信息。我们推测,通过染色体构造捕获方法生成的接触概率图可能会影响宏基因组组装的物种级解卷积。一种生成接触概率图的特殊方法Hi-C,使用邻近连接和大规模平行测序来生成端对序列,从而捕获细胞内基因组的三维相互作用。最近,我们和其他人利用Hi-C数据集中染色体内相互作用的距离依赖性来促进复杂基因组的染色体规模从头组装。另外,由于交联发生在Hi-C协议的细胞裂解之前,每一个Hi-C相互作用涉及一对来自同一细胞的reads。我们推测,在异质细胞群体(如微生物群落)的背景下,这种配对可能会提示来自同一物种的基因组序列的聚类。重要的是,Hi-C方案的有效性最近已在细菌中得到证实(Umbarger等,2011;Le et al. 2013),说明该方法既适用于原核细胞也适用于真核细胞的宏基因组样本。

在这里,我们在几个背景下提供了这个策略的实验概念证明,同时也描述了这个任务的算法,中期(图1)。我们从单个合成的真核生物和/或原核生物混合物中重建了多达18个物种的基因组。包括一些相互之间序列一致性高达90%的物种,我们为合成微生物群落中的真核生物个体生成高度相邻的从头组装。在此过程中,我们还首次在古菌物种中证明了Hi-C。

题目:High-quality genome (re)assembly using chromosomal contact data

利用染色体接触数据进行高质量的基因组(重组)组装

摘要:

已经发布的基因组还未完成起草的基因组组合,本文用全基因组染色体构象捕获(3C:chromosome conformation capture)数据来解决这个问题,并提出一种聚合物理学的计算方法。

名叫GRAAL的算法生成了高质量的基因组集合,其中重复和重复区域被精确表示,同时为计算结构提供了直接的概率解释。

作者在酿酒酵母以及其他酵母分离株上验证了GRAAL,其中GRAAL恢复了已知和未知的复杂染色体结构变异。

GRAAL还完成了里氏木霉的组装,得到了一些与该物种一致的contigs.

最后,我们证明了GRAAL可以精确地从由电脑模拟生成的片段或从头组装获得的contigs重建人类染色体。在所有这些应用中,与最近公布的实施相关方法的项目相比,GRAAL表现良好。

引言:

新一代测序技术(NGS)

需要解决的问题:

将contigs搭建成更大的结构(scoffold)并最终关闭它们之间的间隙

近期研究现状:

采用的方法:Hi-C,一种全基因组染色体构象捕捉技术,用来改善人类基因组的支架(scoffold),(3C)是一种生化分析方法,测量基因组中一对对DNA片段之间的接触频率,为三维组织结构的研究提供了方法

首先,Hi-C数据被用来将contigs聚类为相互之间共享的高频率接触的组,其次,每组内的contigs相对于彼此重新排序,使相邻的contigs有较高的接触频率,从而产生染色体支架

3C接触数据可以用于改进基因组的组装。

两种名为Lachesis12和dnaTri13的算法利用这一原理改进了人类基因组的骨架。这两种方法都采用了两步程序:首先,Hi-C数据被用来将contigs聚成相互之间共享高接触频率的组,因此可能属于同一染色体。其次,每组内的contigs相对于彼此重新排序,使相邻的contigs有较高的接触频率,从而产生染色体支架。通过这些步骤得到的最终支架很可能反映了单个染色体的真实线性结构。

两种方法的缺点:首先,提出的方法没有考虑重复;其次,搭建过程中无法纠正初始聚类步骤中的错误,使得最终基因组组装质量对聚类精度有很强的依赖性。第三,每个方法都有自己的限制。第四,这两种方法都提出了单个基因组组装结果,而不考虑输入3C数据的质量和潜在的模糊性,也没有提供关于其可靠性的全局(Lachesis)或稳定(dnaTri)的概率信息。

2121/10/19 这篇文章前面没有完全看懂


题目:Metagenomic Chromosome Conformation Capture (3C):techniques, applications, and challenges

3C技术应用和挑战

摘要:

我们回顾了目前可用的将宏基因组数据解卷积为代表群体、菌株或基因型的个体基因组的技术,以模拟微生物群落为参考,介绍了宏基因组学中染色体构象捕获(3C)和相关技术的评价。我们提供了去年描述的宏基因组3C技术的第一个独立复制,对该协议提出了一些简单的改进,并将数据质量与更复杂的Hi-C协议提供的数据进行了比较。

引言:

宏基因组学已经被提出作为一种手段来描述我们环境中无处不在的微生物群落,然而,当前的宏基因组学协议未能捕捉到微生物群落遗传物质组织的关键信息,因为在测序前,细胞裂解和DNA剪切步骤故意破坏了群落的精细结构和DNA序列之间的连接。序列分箱(sequence binning)的计算方法试图将序列分配给样本中存在的物种或菌株,从而推断样本处理破坏的连锁信息,这些方法虽然发展了多年,但分辨率有限

染色体构象捕获(3C)和相关方法提供了一种替代策略,可以通过高通量测序或其他分析方法保存和测量微生物群落中遗传物质的空间组织。

在3C中,样品的精细结构是通过可逆交联(reversible crosslinking)来保存的,通常是在收集后立即将样品浸泡在甲醛中。然后对样品进行细胞裂解,进一步的步骤应用于检查样品中的空间结构。

已发表的将3C与宏基因组结合的方案包括限制性消化、随后的邻近连接、随后的交联逆转、DNA收集、连接连接的选择性富集和测序库制备。在高稀释条件下进行DNA连接反应的关键步骤是邻近连接。

其他几种方法可以支持直接测量或推断宏基因组DNA序列之间的连锁关系。

1.单细胞测序方法可以捕获细胞中相当大一部分遗传物质的数据。然而,单细胞技术容易受到试剂和设备的污染,而且依赖于细胞易于分离,这使得单细胞技术难以广泛应用。此外,单细胞技术只收集样本中一小部分细胞的数据,而不是整个细胞。

2.长读单分子测序:太平洋生物科学和牛津纳米孔平台实现了测序技术,可以读取多达100千碱基的DNA链(Laver等人,2015年),可能更多。长序列读取比其他典型测序技术的短序列读取获得更多关于基因进入染色体的排列的信息。目前,单分子序列读取的准确率在80%到90%之间,这足以检测基因,但仅能识别单个核苷酸变异和插入物(Quick et al., 2014)。共识信号方法,如循环共识测序,可以帮助克服单分子测序中的错误,但这样做的代价是读取长度或吞吐量(Larsen等,2014)。这些方法读取单个分子,因此,如果不与3C或Hi-C等文库制备方法结合,它们就无法识别质粒和宿主染色体之间的关系。

3.Correlated coverage binning(相关覆盖装箱):这种策略利用了观察到的现象,即同一物种或品系中的遗传物质以一种高度相关的方式随着时间和空间的推移而大量变化。通过在多个时间点、采样点甚至不同细胞裂解处理的环境中生成宏基因组数据,可以通过识别不同样本中丰度高度相关的序列来重建连锁信息。质粒和噬菌体可能具有独立于宿主染色体的拷贝数动态,可能使某些关联难以检测。

Hi-C方法是第一个在宏基因组学背景下被描述的方法(Beitel et al., 2014;Burton et al., 2014),并涉及到丰富样本进行近距离结扎的步骤。基本的宏基因组3C方法的优势在于更容易在实验室中执行(Marbouty et al., 2014)。

2021/10/19


相关文章
|
1月前
|
前端开发
背景
背景
16 4
|
存储 消息中间件 安全
一、RapidIO背景介绍(3)
一、RapidIO背景介绍(3)
240 0
一、RapidIO背景介绍(3)
一、RapidIO背景介绍(2)
一、RapidIO背景介绍(2)
120 0
一、RapidIO背景介绍(2)
|
消息中间件 缓存 算法
一、RapidIO背景介绍(1)
一、RapidIO背景介绍(1)
316 0
一、RapidIO背景介绍(1)
|
人工智能 达摩院 物联网
|
存储 SQL 大数据
背景介绍 | 学习笔记
快速学习 背景介绍
93 0
背景介绍 | 学习笔记
|
数据采集 监控 大数据
项目背景介绍|学习笔记
快速学习项目背景介绍
144 0
|
开发者 微服务
项目背景介绍 | 学习笔记
快速学习 项目背景介绍
89 0
|
编解码 前端开发 开发者
图像的背景 | 学习笔记
快速学习图像的背景
71 0
图像的背景 | 学习笔记