Nature子刊 | 谭济民、夏波等提出基因组构象预测模型及高通量计算遗传筛选方法

简介: Nature子刊 | 谭济民、夏波等提出基因组构象预测模型及高通量计算遗传筛选方法


机器之心编辑部

本文首先提出了新型多模态机器学习模型 C.Origami 来预测特定细胞类型的染色质构象,并基于遗传筛选的原理提出了全新的高通量计算遗传筛选 (in silico genetic screening, ISGS) 方法。


图 0

不同种类细胞中基因组构象的差异决定了基因表达的特异性,进而决定不同细胞类型的功能差异。长久以来,从原位杂交到高通量检测如 Hi-C、micro-C 技术,基因组构象检测的实验方法通常耗时耗力、成本高昂且有很强的技术局限性。这些方法极大地限制了这些实验技术在基因组构象研究领域的广泛应用,尤其是研究稀有细胞类型以及需要大规模验证基因组构象调控的因果关系等方面。这些方法的局限性也长期限制三维基因组构象调控领域里的新发现。

图 1

2023 年 1 月 9 日,纽约大学医学院(NYU Grossman School of Medicine)Aristotelis Tsirigos 实验室和博德研究所(Broad Institute of MIT and Harvard)夏波实验室合作在 Nature Biotechnology 上发表文章《Cell type-specific prediction of 3D chromatin organization enables high-throughput in silico genetic screening》。


论文地址:https://www.nature.com/articles/s41587-022-01612-8

这项研究中,第一作者纽约大学医学院博士生谭济民与夏波博士首先提出了新型多模态机器学习模型 C.Origami 来预测特定细胞类型的染色质构象,并基于遗传筛选的原理提出了全新的高通量计算遗传筛选 (in silico genetic screening, ISGS) 方法,用以鉴定细胞类型特异性的功能基因组元件,助力发现新的染色质构象调控机理。

图 2

研究者首先构建了应用于基因组数据的新型多模态深度学习框架,Origami,使其能有效地整合 DNA 序列信息以及细胞特异性的功能基因组信息,进而预测新的基因组信息。通过反复调试及模型训练,研究者发现整合 DNA 序列、CTCF 结合状态(CTCF ChIP-seq)、及 ATAC-seq 信号作为输入信息可以准确地预测染色质构象,并以二维的 Hi-C 矩阵作为预测输出目标(图 1-2)。输入信息为 2 百万碱基对的 DNA,CTCF ChIP-seq 和 ATAC-seq。研究者们使用 Onehot-encoding 来编码离散的 DNA 序列,而 CTCF ChIP-seq 和 ATAC-seq 则编码成非离散的特征。


C.Origami 模型分为三个部分,处理并压缩 DNA 及基因组信息的编码器,Transformer 中间层和输出 Hi-C 解码器。其中编码器由一系列 1D ResNet 和 strided convolution 构成用来编码和压缩 2 百万碱基对的输入信息。在编码器末端 2 百万长度的信息被压缩为 256 长度并作为 Transformer 的输入信息。Transformer 的自注意力机制可以处理不同基因组区域间的 interdependency 并提升了模型的综合性能。Transformer 中的注意力矩阵还可以增强模型的可解释性。研究者们将注意力权重转换成了 “attention score ”,用来衡量模型在预测时对于不同区域的侧重。最后,研究者们将 Transformer 模块的 1D 输出用 “outer concatenation” 的方式转换成了 2D 的 contact/adjacency matrix,用作 Hi-C 解码器的输入信息。解码器是一个 Dilated 2D ResNet。研究者们调整了不同层的 dilation factor 使得最后层的每一个像素位置的 receptive field 都能覆盖所有输入信息。

这一预测染色质构象的模型则被称为 C.Origami。研究者称 C.Origami 是基因组学中第一个多模态深度学习模型。由于它多模态的特性,C.Origami 能够准确地预测(de novo prediction)从未接触过的新细胞类型的染色质构象。例如,在 IMR-90 细胞(肺成纤维细胞)上训练的模型能够准确预测出 GM12878 细胞(B 淋巴细胞)里特定的染色质构象(图 3)。

图 3

结构变异(structural variant)---- 比如染色体易位 ---- 在肿瘤中非常常见,并经常改变染色质相互作用模式,进而可能影响癌基因或抑癌基因的表达。研究这些结构变异对染色质构象及基因表达的影响对理解肿瘤发生和进展的机理有重要作用。这类研究通常需要借助 4C-seq 或 Hi-C 等实验来分析结构变异位点的染色质构象,但又往往受限于资源和时间的限制,难以大规模开展。

这项研究中,C.Origami 可以在输入变量中模拟 DNA 序列的变异,然后预测变异后的癌症基因组中新的染色质相互作用。之前的研究发现 T 细胞急性淋巴细胞白血病(T-ALL)细胞模型 CUTLL1 有一个 chr7-chr9 的染色体易位(图 4)。通过计算模拟染色体易位变异,C.Origami 准确预测了在变异位点的新 TAD 结构,并检测到从 chr9 延伸到 chr7 的‘互动束’(chromatin stripe)结构(图 4)。

图 4

鉴于 C.Origami 的精准预测效果,并受到反向遗传筛选原理的启发,研究者提出了全新的高通量计算遗传筛选 (in silico genetic screening,ISGS) 方法,用以系统鉴定细胞类型特异性的功能基因组元件,并助力发现新的染色调控分子(图 5)。研究者们基于 C.Origami 模型开发了用于系统性鉴定染色质构象所需的顺式调控元件(cis-regulatory element)的计算遗传筛选 ISGS 的框架。通过对全基因组 1kb 分辨率的 ISGS,作者分离出对染色质构象有重要影响的顺式调控元件(占约 1% 的基因组)。这些染色质构象调控序列呈现出对 CTCF 结合和 ATAC-seq 信号的不同依赖度(图 5)。

图 5

ISGS 框架可以对细胞或疾病特异性的染色质构象进行高通量筛选。研究者在 CUTLL1、Jurkat 和正常 T 细胞中分别进行了 ISGS,并发现了一个在 CHD4 基因附近的顺式调控元件 (CHD4-insu) 在 T-ALL 细胞里特异性丢失。筛选结果表明,T-ALL 细胞中 CHD4-insu 的绝缘性缺失可能使 CHD4 基因建立新的染色质相互作用,进而上调 CHD4 表达并促进白血病细胞增殖。

ISGS 也可以用来系统地发现调控染色质构象的新型反式作用因子(trans-acting factors)。通过对细胞类型特异性的重要调控序列与转录因子结合部位的富集分析,研究者确定了有助于细胞类型特异的基因组构象的调控因子。有意思的是,之前研究发现 MAZ 可能与 CTCF 一起调控染色质构象。通过 ISGS 及转录因子富集分析,作者发现 MAZ 极大地富集于开放染色质区域,而在 CTCF 结合的非开放染色质区域仅显示微弱结合。这一结果预示 MAZ 可能独立于 CTCF 调节基因组构象。

研究者们在染色质结构预测中看到了结合 DNA 序列与染色质信息的多模态机器学习模型的巨大潜力。而该模型的底层多模态架构 Origami 可以推广到其他基因组学数据的应用,例如表观遗传修饰、基因表达、突变功能性筛查等。研究者预测,未来的基因组学研究将更多的转向使用利用深度学习模型作为工具来进行主要计算遗传筛选,并辅以生物实验验证的新一代高通量研究方法。

这项研究中,纽约大学医学院博士研究生谭济民为第一作者,Aristotelis Tsirigos 博士和夏波博士为共同通讯作者。这项研究起始于 2020 年 10 月疫情封控期间夏波与谭济民的头脑风暴,历经两年半的完善与打磨,在 2023 年一月于 Nature Biotechnology 正式刊出。

此项目的代码和训练数据已在GitHub和Zenodo上开源,并配有Google Colab做功能展示。

项目地址:https://github.com/tanjimin/C.Origami

相关文章
|
Kubernetes 开发者 Docker
基于容器技术的微服务架构
基于容器技术的微服务架构
346 0
|
4月前
|
人工智能 自然语言处理 算法
数字人定制平台哪个好?亲测5款后我选了它
# 数字人定制平台哪个好?亲测5款后我选了它 据艾瑞咨询2025年数据显示,中国数字人市场规模已突破200亿元,年增长率达47%。越来越多企业开始尝试用AI数字人提升客服效率、直播转化或品牌IP化。
数字人定制平台哪个好?亲测5款后我选了它
|
存储
SAP扩充物料的采购视图和会计视图
你一定想,哇,我们已经创建了供应商主数据,是不是我们就可以开始采购了?no你想买什么呢?你想买的是物料。你的物料,采购主数据创建了吗?没有。所以MM50扩充采购视图。但是,朋友,你太幼稚了。如果你想要采购某个物料,你对于物料主数据的维护顺序是这样的:基本视图--会计视图--采购视图不维护会计视图的话,创建采购信息记录的时候,会提示物料没有在1020工厂中维护。
5199 0
|
4月前
|
JSON 监控 供应链
京东商品详情API:从签名生成到JSON解析的完整实战指南
京东商品详情API是京东开放平台的核心接口,提供实时、准确的商品信息获取服务。支持查询商品基础信息、价格库存、SKU规格及销量评价等120+字段,数据延迟≤30秒,单次最多查询200个SKU,适用于价格监控、库存管理等场景。采用HTTP/HTTPS请求,返回标准化JSON格式,便于集成,助力电商数据高效采集与应用。
|
2月前
|
人工智能 自然语言处理 搜索推荐
2026AI数字人核心技术介绍
AI数字人融合语音识别、自然语言处理、3D建模与TTS等技术,具备多模态感知、智能对话、情感交互能力。依托大模型与实时渲染引擎,实现拟人化表达,广泛应用于客服、教育、金融等领域,正加速从技术展示迈向产业落地。
|
4月前
|
人工智能 运维 自然语言处理
世优波塔推出轻量级网页SDK方案,15分钟实现大屏AI数字人集成
展厅升级AI数字人,无需漫长改造与高昂成本!世优科技推出波塔AI数字人网页SDK,15分钟极速集成,轻量化部署,支持自定义形象与多场景交互。适配各类大屏,打通数据系统与数字孪生,让智慧展厅迈入“分钟级”时代,每个空间都能拥有专属数字灵魂。
211 1
|
9月前
|
机器学习/深度学习 人工智能 编解码
十连冠!阿里云蝉联中国音视频整体市场第一!
阿里云视频云以24.17%市场份额连续十次蝉联IDC音视频市场第一。AI+视频云成为增长核心驱动力,“AI实时互动”与“智能媒体生产”等赛道实现商业化突破。阿里云推出三大解决方案:AI实时互动助力企业快速构建沉浸式体验;智能媒体服务通过大模型提升内容生产效率;超高清与超低延时技术双突破,为客户提供高品质直播及点播服务。未来,阿里云将持续定义音视频新体验,与伙伴共创行业未来。
390 1
|
XML Java 开发者
Spring Boot开箱即用可插拔实现过程演练与原理剖析
【11月更文挑战第20天】Spring Boot是一个基于Spring框架的项目,其设计目的是简化Spring应用的初始搭建以及开发过程。Spring Boot通过提供约定优于配置的理念,减少了大量的XML配置和手动设置,使得开发者能够更专注于业务逻辑的实现。本文将深入探讨Spring Boot的背景历史、业务场景、功能点以及底层原理,并通过Java代码手写模拟Spring Boot的启动过程,为开发者提供一个全面的理解。
312 0
|
机器学习/深度学习 数据可视化 算法
alteryx是什么
【6月更文挑战第23天】alteryx是什么
759 4
|
人工智能 缓存 算法
轻创优选视频号爆单系统的开发
电商运营和自动化技术的综合项目,旨在通过高效的内容分发、精准的用户触达和智能化的运营策略,实现商品快速销售和流量变现

热门文章

最新文章