今天给大家介绍2019年10月,北京大学基础医学院周源团队、崔庆华团队和河北工业大学李建伟团队合作在Genome Biology上在线发表的题为Benchmark of computational methods for predicting microRNA-disease associations的文章。该研究测试结果不仅为生物医学研究人员选择合适的miRNA-疾病关联预测因子提供了参考,还为开发更强大的miRNA-疾病关联预测因子提供了未来的方向。
1
研究背景
MicroRNA (miRNA) 是一类长度约为22个核苷酸的非编码单链RNA分子,主要通过靶向mRNA的3'UTR区域来调控基因表达。这些小的非编码RNA广泛参与重要的生物学过程,如细胞分裂、分化、凋亡、细胞周期调节、炎症和应激反应。因此,miRNA的失调(包括表达失调、功能增加或减少突变、表观遗传沉默等)往往在许多疾病的发生和发展中发挥重要作用,这些疾病包括但不限于癌症、心血管疾病和神经退行性疾病等。
迄今为止,有一些流行的miRNA-疾病关联数据,其中HMDD和miR2Disease是从文献中挑选的已知miRNA-疾病关联,而dbDEMC是通过识别观察到的疾病 (癌症)中差异表达的miRNAs来推断miRNA-疾病相关性。考虑到仍有大量潜在的miRNA-疾病相关性仍未被探索,计算方法构成了对实验测定的必要补充。例如,最新的miRBase记录了1917个人类miRNA基因,而根据DO命名法则存在9000多个病种。相比之下, HMDD v3.1是目前最新的miRNA-疾病关联数据集,仅涵盖893种疾病和1206个miRNA基因构成的35547个miRNA-疾病关联。以上统计数据表明,约30%的人类miRNA和约80%的疾病未被通过实验研究报道。考虑到实验测定的时间和人工成本,有效和准确的计算预测工具对于社区筛选进一步研究的主要目标是必要的。
2
基准测试说明
2.1试方法说明
通过查阅PubMed和谷歌学术相关文献,作者共收集了90篇已发表文章(包含90个miRNA-疾病关联预测方法)。这些预测方法中的大多数并不能用于基准测试。如图1所示,3个预测模型没有提供可用的源代码或预测分数,43个预测模型提供了部分预测结果,仅覆盖少数疾病或miRNA, 8个预测模型提供了源代码,但代码未能运行。最后,基准测试包括36个预测模型,其中16个预测模型提供源代码,20个预测模型提供所有预测得分。值得注意的是,尽管有一些预测方法将HMDD v2.0以外的数据集作为它们的训练集,但是没有一个是符合纳入的可用性标准。因此,在这个基准测试中包含的36个预测模型都在HMDD v2.0数据集上进行了训练,使它们具有同质性,但是在训练数据集方面更具可比性
。
图1. 测试方法的筛选流程图
2.2测试数据说明
本文主要的独立基准数据集由HMDD v3.1中所有未被HMDD v2.0覆盖的新的miRNA-疾病关联组成。此外,为了合理评估,作者在HMDD v2.0和v3.1之间进行了疾病名称映射,仅保留了与疾病名称和miRNA名称一致的关联数据(在下文中这个数据集称为“ALL benchmarking dataset”)。先前的HMDD数据库中一个值得注意的问题是,它包含了文献中所有种类的miRNA-疾病关联性,但其中一些仅得到了微弱的实验证据支持。为了解决这个问题,作者对HMDD v3.1数据的实验证据进行了系统的重新评估,以标记潜在的致病miRNAs,并在最新版本的HMDD v3.2提供了一个新的疾病因果miRNA数据集(在下文中称为“CAUSAL benchmarking dataset”),它是ALL benchmarking dataset的子集,即只考虑因果miRNA-疾病关联作为阳性检测样本。此外,还有一些推断潜在miRNA-疾病关联高通量的实验数据集,其中dbDEMC是关注人类癌症的miRNA差异表达中规模是最大的数据库。为了评估使用HMDD v2.0数据训练的36个预测模型是否也能在异构的dbDEMC数据集上表现良好,作者还在HMDD v2.0没有覆盖的dbDEMC记录上测试了预测模型。
3
评估结果分析
3.1 评估指标说明
由于已知的miRNA-疾病关联数量远远小于可能的miRNA-疾病组合数量,导致基准数据集的正负样本比例显著不平衡。因此,作者采用严格的P-R曲线分析来评估这些预测模型的整体性能。
3.2评估预测模型的整体性能
图2显示了P-R曲线下面积(AUPRC)最大的10个预测模型。前10位预测模型的AUPRC均高于0.2,表明其对miRNA-疾病关联性的整体预测能力。其中,MCLPMDA (AUPRC = 0.311)、LFEMDA (AUPRC = 0.301)、LPLNS (AUPRC = 0.286)与其他方法相比至少具有0.05的AUPRC优势,突出了良好的准确性。
图2. AUPRC排名前十的预测模型在ALL benchmarking dataset上的P-R曲线。
为了进一步研究不同计算框架的预测模型的性能,作者将36个预测模型分为三类,即得分函数类、复杂网络算法类、机器学习类。其中在得分函数类别中SNMFMDA表现最佳(AUPRC=0.192);在复杂网络算法类中MCLPMDA表现最佳(AUPRC = 0.311);在机器学习类中LFEMDA性能最佳(AUPRC = 0.301)。
另一方面,AUPRC不适合评估特定阈值下的预测精度。为此,基于ALL benchmarking dataset的前100名、前500名、前1000名和前5%的高得分预测,作者进一步调查了36个预测模型中正确预测miRNA-疾病关联对的比例。结果总结在图3中,只有MCLPMDA在每个阈值上保持最好的排名。当考虑预测结果前5%时,BNPMDA和HAMDA排在前3位,这表明它们在预测中度高置信度miRNA-疾病关联方面的准确性。因此,用户可能希望根据能够可接受的输出(miRNA-疾病关联候选项的数量)来选择特定的预测工具。
图3. 在ALL benchmarking dataset上测试36个预测模型top-K高得分预测,正确预测miRNA-disease关联对的统计表。
3.3评估预测模型的迭代集成对预测性能的影响
预测方法采用了各种计算方法和描述miRNA和/或疾病相似性的明显特征。因此,很有可能其中一些方法是互补的,将这些方法结合起来可以获得更好的性能。为了验证这种可能性,作者首先使用max-min归一化方法将每个预测模型的预测得分缩放到0-1区间,然后将预测得分与每个预测模型初步优化的权重进行迭代整合。分别在ALL benchmarking dataset(图4.A) CAUSAL benchmarking dataset(图4.B) 执行预测模型组合过程。在ALL benchmarking dataset和CAUSAL benchmarking dataset上,可观察到AUPRC的类似趋势。从性能最好的预测模型MCLPMDA开始,与NDAMDA和LPLNS的顺序集成导致组合预测模型显示出最好的两个AUPRC。综合以上结果,验证了方法组合的可行性和有效性。
图4. 不同预测模型迭代集成的AUPRC折线图
3.4评估过度表达的miRNA和疾病对预测性能的潜在影响
在可能的miRNA-疾病组合中,miRNA-疾病关联对的分布并不均匀。对特定miRNAs或疾病的过度表达会使预测模型产生偏差,在这些模型中,注释良好的miRNAs或疾病往往具有更好的预测准确性。为了验证这种可能性,作者首先根据疾病谱宽度(DSW)对不同miRNA的预测结果进行分层(图5.A)。DSW评分越高,表明miRNAs的疾病相关性越广。然而,两个DSW组之间的AUPRC差异在预测模型之间具有很大的可比性,这表明没有特定的计算框架容易受到数据集中注释良好的miRNAs过度表示的偏见影响。类似的测量方法叫miRNA谱宽(MSW),它可以用来根据miRNA的相关性对那些解释较好的和解释较少的疾病进行分层(图5.B)。从图5.B中可以直观地看出,MSW分层的情况要比DSW分层严重得多。这些结果突出了一个值得注意的问题,即当前的大多数预测方法都容易受到数据集中代表性过高的疾病的影响,因此往往倾向于对疾病进行良好的注释。
图5. 预测模型性能的分层比较。
3.5评估MISIM 1.0和MISIM 2.0 对预测性能的影响
大多数预测方法都将miRNA之间的功能相似度作为其算法的核心组成部分之一,其中miRNA功能相似度矩阵MISIM v1.0是被应用最为广泛的。最近,MISIM v2.0基于HMDD v3.0数据库中的新数据发布,作者将MISIM v1.0相似矩阵替换为MISIM v2.0,并重新运行程序以获得13个模型新的预测分数。然后在相同的基准数据集上比较了基于两个相似矩阵的性能(图6)。除了MCLPMDA、MERWMDA和PRMDA之外,大多数方法在使用MISIM v2.0时都有不同程度的性能改进,其中MKRMDA受益最大,AUPRC增加了0.085。总之,新的miRNA功能相似矩阵MISIM v2.0将有助于提高预测性能,但需要仔细设计算法来处理MISIM v1.0和v2.0之间的差异,以便充分利用这个新的相似矩阵。
图6. 使用MISIM 2.0和MISIM 1.0在13个预测模型上预测结果的比较
3.6 评估预测模型的因果关系排序潜力
识别潜在的致病miRNA对于理解疾病的潜在机制至关重要。直到最近,还没有关于疾病因果miRNA的完整注释数据集。为了解决这个问题,在最新的HMDD v3.2版本中,虽然与HMDD v3.1相比没有包含其他的miRNA-disease关联,但是提供了一个手动管理的因果miRNA-疾病关联数据集。作者将基准数据集中的所有miRNA-疾病关联对分为三组,即因果、非因果、非疾病。图7中,作者通过使用测试了CAUSAL benchmarking dataset上预测模型区分因果对和非疾病对的能力,进一步评估了通过AUROCs指标区分因果(阳性样本)和非因果(阴性样本)对的预测模型。评价结果见图8.A。不幸的是,没有一个预测模型在区分因果miRNA和非因果miRNA方面取得令人满意的效果,其中最佳AUROC限制在0.538。因此,作者采用了一种简单的方法,使用Wilcoxon统计测试比较因果miRNA和非因果miRNA之间的预测得分。36个预测模型中,只有三种方法对因果miRNA的预测得分显著高于非因果miRNA,分别为L1-norm (P值= 3.93e-5)、CNMDA (P值= 0.0197)和TLHNMDA (P值= 0.00377),说明这三种方法对因果miRNA的识别能力较弱。随着对miRNA参与疾病机制的研究兴趣的增加,因果miRNA预测很可能成为近期相关生物信息学研究的一个新兴重要方向。
图7. AUPRC排名前十的预测模型在CAUSAL benchmarking dataset上的P-R曲线.
图8. 疾病因果miRNA排序的预测性能。
4
结论
越来越多的证据表明,miRNA参与了多种人类疾病的发生和发展,这进一步推动了miRNA-疾病关联预测的出现,成为生物信息学领域的一个活跃方向。本文作者在独立基准数据集(HMDD v3.1)上系统地评估了36个miRNA-疾病关联预测模型的整体性能,并通过概述评估结果在预测模型选择和未来研究方向上给出建议。