你所有的数码照片都可以作为 DNA 存储吗?

简介: 你所有的数码照片都可以作为 DNA 存储吗?

一种从大型池中标记和检索 DNA 数据文件的技术可以帮助使 DNA 数据存储可行。


安妮·特拉夫顿 | 麻省理工学院新闻办公室发布日期2021 年 6 月 10 日

640.jpg

       图1:一种轻松检索以 DNA 形式存储的数据文件的方法

目前,地球上大约有 10 万亿字节的数字数据,每天,人类产生电子邮件、照片、推文和其他数字文件,这些数据加起来也有 250 万千兆字节。大部分数据存储在称为艾字节数据中心的巨大设施中(艾字节为 10 亿千兆字节),这些数据中心可能有几个足球场那么大,建设和维护成本约为 10 亿美元。许多科学家认为,另一种解决方案在于包含我们遗传信息的分子:DNA,它进化为以非常高的密度存储大量信息。麻省理工学院生物工程教授 Mark Bathe 说,一个装满 DNA 的咖啡杯理论上可以存储世界上所有的数据。“我们需要新的解决方案来存储世界正在积累的这些海量数据,尤其是档案数据,”同时也是麻省理工学院和哈佛大学博德研究所的准成员的 Bathe 说。“DNA 的密度甚至比闪存还要高一千倍,另一个有趣的特性是,一旦你制造出 DNA 聚合物,它就不会消耗任何能量。你可以写下 DNA,然后永远存储它。”640.jpg


图2:DNA“文件”的照片

     每个二氧化硅球体都包含编码特定图像的 DNA 序列,球体的外部涂有描述图像内容的核苷酸条形码。由研究人员提供

科学家们已经证明他们可以将图像和文本页面编码为 DNA。然而,还需要一种从许多 DNA 片段的混合物中挑选出所需文件的简单方法。Bathe 和他的同事现在已经展示了一种方法,将每个数据文件封装到一个 6 微米的二氧化硅颗粒中,并用可显示内容的短 DNA 序列标记。

640.jpg

图3:研究人员将这些图像(如图)存储在 DNA 中


使用这种方法,研究人员证明他们可以准确地从一组 20 张图像中提取存储为 DNA 序列的单个图像。考虑到可以使用的可能标签的数量,这种方法最多可以扩展到 10 20 个文件。


巴斯是该研究的资深作者,该研究今天发表在Nature Materials 上。该论文的主要作者是麻省理工学院高级博士后 James Banal、前麻省理工学院研究助理 Tyson Shepherd 和麻省理工学院研究生 Joseph Berleant。


稳定存储


数字存储系统将文本、照片或任何其他类型的信息编码为一系列 0 和 1。可以使用构成遗传密码的四个核苷酸在 DNA 中编码相同的信息:A、T、G 和 C。例如,G 和 C 可用于表示 0,而 A 和 T 表示 1。


DNA 有几个其他特性使其成为理想的存储介质:它非常稳定,合成和测序相当容易(但成本昂贵)。此外,由于其高密度——每个核苷酸相当于多达两个比特,大约为 1 立方纳米——以 DNA 形式存储的 EB 数据可以放在你的手掌中。


这种数据存储的一个障碍是合成如此大量 DNA 的成本。目前,写入 1 PB 数据(100 万 GB)将花费 1 万亿美元。为了与通常用于存储档案数据的磁带竞争,Bathe 估计 DNA 合成的成本需要下降大约六个数量级。Bathe 说,他预计这将在一两年内发生,类似于过去几十年在闪存驱动器上存储信息的成本大幅下降。


除了成本之外,使用 DNA 存储数据的另一个主要瓶颈是难以从所有其他文件中挑选出您想要的文件。


“假设写入 DNA 的技术达到了在 DNA 中写入 EB 或 Zettabyte 数据具有成本效益的地步,然后呢?你将拥有一堆 DNA,这是无数的文件、图像或电影和其他东西,你需要找到你正在寻找的图片或电影,”Bathe 说。“这就像大海捞针。”


目前,通常使用 PCR(聚合酶链反应)来检索 DNA 文件。每个 DNA 数据文件都包含一个与特定 PCR 引物结合的序列。要提取特定文件,将该引物添加到样本中以查找和扩增所需序列。然而,这种方法的一个缺点是引物和脱靶 DNA 序列之间可能存在串扰,导致不需要的文件被拉出。此外,PCR 检索过程需要酶,最终会消耗池中的大部分 DNA。“你有点像大海捞针才能找到针头,因为所有其他 DNA 都没有被放大,你基本上就是把它扔掉,”Bathe 说。


文件检索


作为替代方法,麻省理工学院团队开发了一种新的检索技术,该技术涉及将每个 DNA 文件封装到一个小的二氧化硅颗粒中。每个胶囊都标有与文件内容相对应的单链 DNA“条形码”。为了以经济高效的方式证明这种方法,研究人员将 20 个不同的图像编码到大约 3,000 个核苷酸长的 DNA 片段中,相当于大约 100 个字节。(他们还表明,胶囊可以容纳高达 1 GB 的 DNA 文件。)


每个文件都标有与“猫”或“飞机”等标签相对应的条形码。当研究人员想要提取特定图像时,他们会移除 DNA 样本并添加与他们正在寻找的标签相对应的引物——例如,图像的“猫”、“橙色”和“野生”老虎,或“猫”、“橙色”和“家猫”的“家猫”。


引物用荧光或磁性粒子标记,便于从样本中提取和识别任何匹配项。这允许删除所需的文件,同时保留其余 DNA 完好无损,以便将其放回存储中。他们的检索过程中允许的布尔逻辑语句,如“总统和18世纪”产生乔治·华盛顿作为一个结果,类似于用谷歌图片搜索检索。


“在我们概念验证的当前状态下,我们处于每秒 1 KB 的搜索速率。我们的文件系统的搜索率取决于每个胶囊的数据大小,目前这受到在 DNA 上写入甚至 100 兆字节数据的高昂成本以及我们可以并行使用的分拣机数量的限制。如果 DNA 合成变得足够便宜,我们将能够使用我们的方法最大化每个文件可以存储的数据大小,”Banal 说。


对于他们的条形码,研究人员使用了来自哈佛医学院遗传学和医学教授斯蒂芬·埃利奇 (Stephen Elledge) 开发的 100,000 个序列库中的单链 DNA 序列,每个序列长约 25 个核苷酸。如果您在每个文件上放置两个这样的标签,您可以唯一地标记 10 10(100 亿)个不同的文件,每个文件上有四个标签,您可以唯一地标记 10 20 个文件。


哈佛医学院遗传学教授 George Church 将这项技术描述为“知识管理和搜索技术的一次巨大飞跃”。


在以 DNA 形式写入、复制、读取和低能耗档案数据存储方面的快速进展为从巨大(10 21 字节,zetta 规模)数据库中精确检索数据文件留下了很少的探索机会,”Church 说,没有参与这项研究。“这项新研究使用完全独立的 DNA 外层并利用 DNA 的不同特性(杂交而不是测序),此外还使用现有仪器和化学物质,引人注目地解决了这个问题。”


Bathe 设想这种 DNA 封装可用于存储“冷”数据,即保存在档案中且不经常访问的数据。他的实验室正在分拆一家名为 Cache DNA 的初创公司,该公司目前正在开发长期存储 DNA 的技术,既用于长期 DNA 数据存储,也用于近期临床和其他预先存在的 DNA 样本。


“虽然 DNA 作为数据存储介质可能还需要一段时间,但今天已经迫切需要低成本、海量的存储解决方案,用于来自 Covid-19 测试、人类基因组测序和其他领域的预先存在的 DNA 和 RNA 样本。基因组学领域,”Bathe 说。

该研究由海军研究办公室、美国国家科学基金会和美国陆军研究办公室资助。

相关文章
|
7月前
|
安全
三维基因组|基因组结构 (2)
三维基因组|基因组结构 (2)
66 0
|
3月前
|
存储 数据挖掘
单细胞|线粒体基因型和DNA可及性联合分析
单细胞|线粒体基因型和DNA可及性联合分析
88 15
单细胞|线粒体基因型和DNA可及性联合分析
|
7月前
|
安全
基因序列比对的注意点
基因序列比对的注意点
|
7月前
|
算法 C++
C++哈希表企业级运用----DNA序列的检测
C++哈希表企业级运用----DNA序列的检测
|
前端开发
HTML+CSS制作DNA双螺旋结构
HTML+CSS制作DNA双螺旋结构
|
算法 芯片
DNA测序原理:illumina和Pacbio对比介绍
DNA测序原理:illumina和Pacbio对比介绍
DNA methyltransferase,DNMT
DNMT(DNA methyltransferase)是一种酶,主要负责将甲基基团(CH3)添加到DNA分子中特定的CpG位点上,从而实现DNA甲基化。DNMT在基因表达调控、细胞分化和疾病发生等方面具有重要作用。
66 1
哈希表的企业级应用— —DNA 检测字串匹配
哈希表的企业级应用— —DNA 检测字串匹配
哈希表的企业级应用— —DNA 检测字串匹配
|
机器学习/深度学习 安全 数据挖掘
用于 DNA 测序的机器学习模型,理论上可以解码任何测序读数中所编码的数据值
用于 DNA 测序的机器学习模型,理论上可以解码任何测序读数中所编码的数据值
179 0
用于 DNA 测序的机器学习模型,理论上可以解码任何测序读数中所编码的数据值
扩增子测序中OTU表进行抽平的两种方式
A random rarefaction of sample reads according to a specific reads length (usually the smallest value) should be performed firstly for downstream analysis.
422 0