研究人员开发了一种预测DNA甲基化位点的机器学习算法可以帮助识别致病机制。该论文2020年8月3日发表在"Nature Machine Intelligence"上。
研究人员通过机器学习开发了一种算法,可以帮助预测DNA甲基化的位点,这一过程可以改变DNA的活性而无需改变其整体结构。开发人员说,这可能有助于确定致病机制,而常规筛查方法可能会漏掉这些致病机制。该算法由美国新泽西技术学院(NJIT)和费城儿童医院(CHOP)的团队完成。
研究人员称,DNA甲基化参与许多关键的细胞过程,并且是基因表达的重要组成部分。因此,甲基化错误可能与多种人类疾病有关。尽管基因组测序工具可以有效地查明可能导致疾病的多态性,但由于各个基因看起来仍然相同,因此这些相同的方法无法捕获甲基化的影响。具体而言,已经进行了相当大的努力来研究真核细胞中N6-腺嘌呤(6mA)的DNA甲基化。但是,尽管可获得基因组数据,但是甲基化在这些细胞中的作用仍然难以捉摸。
Hakon Hakonarson博士说,以前开发用于鉴定基因组中甲基化位点的方法非常保守,只能在给定的时间查看某些核苷酸长度,因此遗漏了大量甲基化位点。研究人员需要开发一种更好的方法来鉴定和预测甲基化位点,该工具可以在整个基因组中鉴定出这些基序,这些基序可能具有强大的功能影响力,并可能引起疾病。”
该研究的资深合著者Zhi Wei教授与Hakonarson及其团队合作,开发了一种名为Deep6mA的深度学习算法,该算法可以预测这些甲基化位点的发生位置,从而帮助研究人员确定他们可能对某些分子产生的影响。
新方法有四个优点
自动化不同细节级别的序列特征表示;
整合感兴趣的基因侧翼的广泛甲基化序列;
潜在地可视化固有序列基序以进行解释;
促进大规模基因组数据的模型开发和预测。
研究小组将此算法应用于三种不同类型的代表性生物:拟南芥、黑腹果蝇和大肠杆菌,前两种是真核生物。Deep6mA能够识别低至单个核苷酸分辨率的6mA甲基化位点。研究人员说,即使是在最初的确认研究中,他们也能够可视化使用以前存在的方法无法观察到的调节模式。
文章的讨论中声明一个局限:提出的预测完全基于序列信息。候选对象是否为6mA位点将取决于许多其他因素。甲基化是一个动态过程,会随细胞环境而变化。将来希望考虑其他因素,例如基因表达。
研究人员已经知道许多基因具有甲基化引起的致病机制,尽管这项研究并未在人类细胞中进行,但真核细胞模型却具有相当的可比性。希望将其发现转化为临床应用的基因组科学家会发现此工具非常有用,而且精确度水平最终可能会导致发现特定的细胞或靶标,这些分子或靶标可作为治疗干预手段。”