用于 DNA 测序的机器学习模型,理论上可以解码任何测序读数中所编码的数据值

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,100CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
简介: 用于 DNA 测序的机器学习模型,理论上可以解码任何测序读数中所编码的数据值

大规模并行 DNA 测序导致生物学中高度多重实验的快速增长。这些实验产生独特的测序结果,需要特定的分析管道来解码高度结构化的读数。然而,尚未开发出解释测序读数以提取其编码信息用于下游生物分析的多功能框架。

在这里,不列颠哥伦比亚大学和东京大学的研究人员报告了 INTERSTELLAR(interpretation, scalable transformation, and emulation of large-scale sequencing reads,大规模测序读数的解释、可扩展转换和仿真);理论上,它可以解码任何类型的测序读数中编码的数据值,并将它们转化为另一种选择结构的测序读数。

INTERSTELLAR 成功地从一系列短读长和长读长测序读数中提取了信息,并翻译了单细胞 (sc)RNA-seq、scATAC-seq 和空间转录组学的那些数据,从而方便研究人员用不同软件工具进行分析。INTERSTELLAR 将极大地促进基于测序的实验的开发和数据分析管道的共享。

该研究以「A universal sequencing read interpreter」为题,于 2023 年 1 月 4 日发布在《Science Advances》。

在过去的几十年里,利用微阵列和高通量 DNA 测序,DNA 条形码的概念使一系列汇集的生物筛选成为可能。早期的例子包括建立酵母缺失集合,其中每个菌株都被构建为在缺失位点具有两个独特的 DNA 条形码。可以汇集条形码酵母菌株并进行单一生长竞争测定,其个体相对生长变化可以通过竞争前后微阵列或高通量测序测量的条形码数量读出。该策略开创了化学基因组学领域筛选药物靶基因的先河。

不久之后,同样的概念也被应用于基于哺乳动物细胞培养的全基因组基因敲除和敲除分析。在这些测定中,细胞由编码短发夹 (sh) RNA 或 CRISPR-Cas9 引导 (g) RNA 的慢病毒文库转导。由不同扰动引起的细胞生长可以通过聚合酶链反应 (PCR) 扩增和小 shRNA 或 gRNA 编码 DNA 片段的测序来大量量化。

此外,产生远端基因组区域和与不同因素相关的 DNA 条形码的嵌合融合的实验系统,使得研究人员能够大规模探索染色质构象、蛋白质相互作用、遗传相互作用和单分子 RNA 的空间细胞分布。在单细胞和空间基因组学中,单细胞标识符 (ID)、空间 ID 和唯一分子 ID (UMI) 用于唯一标记相应的转录组或基因组 DNA 片段,这导致了单细胞 RNA 测序(scRNA-seq)、scATAC-seq、空间转录组学和空间基因组技术的发展。

上述方法中的每一种都可以同时进行多个实验并生成测序文库。来自不同检测的测序文库也可以通过将额外的文库特异性、独特的 DNA 条形码融合到每个测序文库 DNA 中,进一步复用用于单次测序运行。这些实验的输出 DNA 分子具有一系列复杂性,其中一些编码多个信息片段,其组合有时被设计为通过多个读取(例如,配对末端读取和索引读取)读取。

然而,存在一些共同的问题——这些基于测序的实验中的大多数方法,都是使用它们自己专有的软件工具针对特定的序列读取结构开发的。虽然许多此类工具具有先进的下游数据分析功能,但它们通常不能重复用于概念上相同类型的实验系统产生的测序读数。对于具有改进的性能和不同读取结构的概念相同的分析,已经反复提出新的实验方法,并且已经为它们各自的读取结构开发了处理基本相同信息的数据分析工具。

在 scRNA-seq 领域尤其观察到这些轮子的再发明。这些软件工具不能交换不同的 scRNA-seq 库结构,也不能通过将它们应用于相同的 scRNA-seq 数据集来进行交叉验证。已经做出多项努力来开发能够分析特定类别实验的不同读取结构的灵活软件工具,例如 UMI-tools、zUMIs、scumi(用于基于 UMI 的 RNA-seq 和 scRNA-seq)和 SnapATAC(对于 scATAC-seq),但它们对于正在进行的产生独特读取结构的新实验的开发无效。

任何测序数据分析都遵循每次读取中序列片段的识别(例如,在 scRNA-seq reads 中识别细胞 ID、UMI 和 cDNA 编码区域)以及提取的序列片段和值(例如,映射到参考基因组和 scRNA-seq 中每个 RNA 种类的 UMI 计数)的下游分析。

因此,不列颠哥伦比亚大学和东京大学的研究人员提出了两种解决方案:(i) sequencing read interpreter 和数据分析工具的开发——如果一个 read interpreter 只提取在 sequencing reads 中编码的数据值,那么它的数据分析 pipeline 应该适用于产生相同数据结构的其他实验的 sequencing reads;(ii) read translator 的开发——如果可以将某种格式的测序 reads 翻译成另一种 reads 结构,则可以使用为特定 reads 结构开发的现有数据分析管道来分析其他 reads 结构。基于这两个方案,研究人员开发了称为 INTERSTELLAR 的单一通用工具。

图示:INTERSTELLAR 的概述。(来源:论文)

任何测序文库的结构都是通过用序列片段的位置规定在DNA序列中编码的信息或使用恒定标记序列对其进行切片来设计的(否则测序后无法分析文库)。在对文库进行测序之后进行任何测定后,提取序列片段并进行错误校正以用于下游分析。INTERSTELLAR 完全有能力使用灵活的正则表达式系统和序列段中编码的值的亲本关联来解码任何这些读取。

研究人员使用不同的软件工具对 scATAC-seq、scRNA-seq 和空间转录组学读数进行读数翻译和数据分析,并将结果与原始专有软件工具分析的原始读数进行比较。尽管原始结果和仿真结果的总体结果非常相似,但观察到的差异程度不同。

图示:不同 scRNA-seq 读数和软件工具的交叉评估。(来源:论文)

结果的差异可以通过三个潜在来源来解释:(i) 读取解释过程,(ii) 目标段分配过程,以及 (iii) 不同软件工具之间价值分析过程的差异,其中 INTERSTELLAR 负责前两个。从 scRNA-seq 读取翻译演示中,读取解释过程的纠错步骤被认为是所见差异的潜在主要来源,其中读取解释的纠错很可能使在不同软件工具中实施的纠错步骤无效(即,通过 INTERSTELLAR 覆盖纠错策略)。

图示:多模式 scRNA-seq 读取的翻译。(来源:论文)

虽然 Levenshtein 距离度量是 INTERSTELLAR 的基于非许可名单的纠错的默认值,并且对于大多数测序读取数据分析来说这实际上不是问题,但它可以用 Bartender 或用户开发的插件代替。当目标片段的信息容量(或代表性)小于相应源片段的信息容量(或代表性)时,目标片段序列分配过程是源读取中编码信息丢失的唯一潜在来源。

为了解决这个问题,研究人员在理论上实施了最佳价值空间优化策略,该策略使用亲本段分配的用户定义信息,并成功地证明了读取翻译的信息损失可以最小化,同时降低了序列代表性。

在过去的几十年里,除了临床样本和各种物种的(表观)基因组学和转录组学分析之外,大规模并行短读长测序技术的应用使得广泛的生物检测得以发展,并且该领域继续迅速扩大。虽然开发专有测序读数解释器和数据分析管道并将其与新的基于测序的分析方法的开发结合起来是一种实践,但该团队的研究人员建议应开发下一种形式,即社区可使用通用的测序读数解释和翻译平台, 如 INTERSTELLAR,只开发数据分析部分,单独共享,以最大限度地利用数据处理资源。

论文链接:https://www.science.org/doi/10.1126/sciadv.add2793

相关文章
|
1月前
|
机器学习/深度学习 存储 设计模式
特征时序化建模:基于特征缓慢变化维度历史追踪的机器学习模型性能优化方法
本文探讨了数据基础设施设计中常见的一个问题:数据仓库或数据湖仓中的表格缺乏构建高性能机器学习模型所需的历史记录,导致模型性能受限。为解决这一问题,文章介绍了缓慢变化维度(SCD)技术,特别是Type II类型的应用。通过SCD,可以有效追踪维度表的历史变更,确保模型训练数据包含完整的时序信息,从而提升预测准确性。文章还从数据工程师、数据科学家和产品经理的不同视角提供了实施建议,强调历史数据追踪对提升模型性能和业务洞察的重要性,并建议采用渐进式策略逐步引入SCD设计模式。
93 8
特征时序化建模:基于特征缓慢变化维度历史追踪的机器学习模型性能优化方法
|
11天前
|
机器学习/深度学习 人工智能 自然语言处理
PAI Model Gallery 支持云上一键部署 DeepSeek-V3、DeepSeek-R1 系列模型
DeepSeek 系列模型以其卓越性能在全球范围内备受瞩目,多次评测中表现优异,性能接近甚至超越国际顶尖闭源模型(如OpenAI的GPT-4、Claude-3.5-Sonnet等)。企业用户和开发者可使用 PAI 平台一键部署 DeepSeek 系列模型,实现 DeepSeek 系列模型与现有业务的高效融合。
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
云上一键部署 DeepSeek-V3 模型,阿里云 PAI-Model Gallery 最佳实践
本文介绍了如何在阿里云 PAI 平台上一键部署 DeepSeek-V3 模型,通过这一过程,用户能够轻松地利用 DeepSeek-V3 模型进行实时交互和 API 推理,从而加速 AI 应用的开发和部署。
|
1月前
|
机器学习/深度学习 人工智能 算法
机器学习算法的优化与改进:提升模型性能的策略与方法
机器学习算法的优化与改进:提升模型性能的策略与方法
260 13
机器学习算法的优化与改进:提升模型性能的策略与方法
|
1月前
|
机器学习/深度学习 安全 PyTorch
FastAPI + ONNX 部署机器学习模型最佳实践
本文介绍了如何结合FastAPI和ONNX实现机器学习模型的高效部署。面对模型兼容性、性能瓶颈、服务稳定性和安全性等挑战,FastAPI与ONNX提供了高性能、易于开发维护、跨框架支持和活跃社区的优势。通过将模型转换为ONNX格式、构建FastAPI应用、进行性能优化及考虑安全性,可以简化部署流程,提升推理性能,确保服务的可靠性与安全性。最后,以手写数字识别模型为例,展示了完整的部署过程,帮助读者更好地理解和应用这些技术。
93 20
|
30天前
如何看PAI产品下训练(train)模型任务的费用细节
PAI产品下训练(train)模型任务的费用细节
81 6
|
3月前
|
人工智能 JSON 算法
Qwen2.5-Coder 系列模型在 PAI-QuickStart 的训练、评测、压缩及部署实践
阿里云的人工智能平台 PAI,作为一站式、 AI Native 的大模型与 AIGC 工程平台,为开发者和企业客户提供了 Qwen2.5-Coder 系列模型的全链路最佳实践。本文以Qwen2.5-Coder-32B为例,详细介绍在 PAI-QuickStart 完成 Qwen2.5-Coder 的训练、评测和快速部署。
Qwen2.5-Coder 系列模型在 PAI-QuickStart 的训练、评测、压缩及部署实践
|
2月前
|
编解码 机器人 测试技术
技术实践 | 使用 PAI+LLaMA Factory 微调 Qwen2-VL 模型快速搭建专业领域知识问答机器人
Qwen2-VL是一款具备高级图像和视频理解能力的多模态模型,支持多种语言,适用于多模态应用开发。通过PAI和LLaMA Factory框架,用户可以轻松微调Qwen2-VL模型,快速构建文旅领域的知识问答机器人。本教程详细介绍了从模型部署、微调到对话测试的全过程,帮助开发者高效实现定制化多模态应用。
|
2月前
|
机器学习/深度学习 人工智能 算法
人工智能浪潮下的编程实践:构建你的第一个机器学习模型
在人工智能的巨浪中,每个人都有机会成为弄潮儿。本文将带你一探究竟,从零基础开始,用最易懂的语言和步骤,教你如何构建属于自己的第一个机器学习模型。不需要复杂的数学公式,也不必担心编程难题,只需跟随我们的步伐,一起探索这个充满魔力的AI世界。
72 12
|
3月前
|
机器学习/深度学习 Python
机器学习中评估模型性能的重要工具——混淆矩阵和ROC曲线。混淆矩阵通过真正例、假正例等指标展示模型预测情况
本文介绍了机器学习中评估模型性能的重要工具——混淆矩阵和ROC曲线。混淆矩阵通过真正例、假正例等指标展示模型预测情况,而ROC曲线则通过假正率和真正率评估二分类模型性能。文章还提供了Python中的具体实现示例,展示了如何计算和使用这两种工具来评估模型。
124 8

热门文章

最新文章

相关产品

  • 人工智能平台 PAI