R软件基于k-mer 的DNA分子序列比较研究及其应用

简介: R软件基于k-mer 的DNA分子序列比较研究及其应用


科学技术的发展为各个领域都带来了深刻的变革,在生物学领域,随着计算机的应用,生物学与信息学的结合诞生了一门新的融合学科——生物信息学点击文末“阅读原文”了解更多


作为生物信息学的重要研究内容之一,生物序列比较成为当下热点问题。基于k-mer的DNA分子序列比较研究是序列比较的一种,该方法以进化论作为依据,从序列的相似性出发探究同源的可能性。关于相似度的计算,首先将生物序列转化为k-mer的词频向量,然后利用距离公式求得生物序列的距离矩阵作为相似度的量化。基于k-mer的DNA分子序列比较研究在这篇论文中采用以熵权作为权重的加权欧氏距离与欧氏距离两种方法计算相似度。最后,通过相似性分析与系统发育树分析测试两种方法的分类效率,评价方法的应用效果。

考虑到生物序列非比对方法的优点,本文将重点放在研究基于k-mer的非比对方法上,并将熵权应用到相似度的计算上,将相似度量化,利用距离来反映物种之间的亲缘关系。论文的主要工作如下:(1)数据收集。针对本文研究内容收集相应生物序列数据,整理成文件。(2)k-mer的读取。利用R编程软件,给定不同的k值计算基因序列的k-mer出现的频率,将每个物种不同k-mer出现的频率写成4k维频率向量,再将多个物种向量合并成矩阵形式。(3)计算熵权。熵权代表了指标的重要性,根据熵权法的定义,在获得归一化的评价指标的判断矩阵后,根据熵权计算公式用判断矩阵计算出全部4k个k-mer的熵权。(4)量化相似度。在欧氏距离的基础上,结合第三步所得到的熵权,计算出物种之间的加权距离,并写成距离矩阵以便直观观察到物种之间基因序列的相似程度,从而大致判断出物种的亲缘关系。相似性分析。根据收集到的数据分别计算出欧氏距离矩阵与加权欧氏距离矩阵,在利用R软件画出两种方法的ROC图,计算对应AUC值,根据AUC值的大小分析哪种方法具有更好的分类效果。

k=5 时ROC 曲线与 AUC 值

6752f23e3ac47beee94db1815a424329.png

AUC值

cfae3dcccd93faad1da8ea102ae2a974.png

AUC 值通常用作衡量总体判别精度的指标。图是 k 取值从 1 到 5 时欧氏距离与加权欧氏距离两种方法下的 ROC 曲线,表 是 k 取值从 1 到 5 时两种方法的 AUC 值。从图表中观察到,无论 k 取何值,加权欧式距离的 AUC 值始终高于欧氏距离的 AUC 值,并且加权欧氏距离在 k=2 时其 AUC 值达到最高,为 0.9079,说明加权欧氏距离的方法比欧式距离在分类上更具有效率。


点击标题查阅往期内容


R语言分析蛋白质组学数据:飞行时间质谱(MALDI-TOF)法、峰值检测、多光谱比较



左右滑动查看更多



01




系统发育树分析

在距离矩阵的基础上利用 R软件对数据进行聚类分析,画出两种方法的系统发育树,通过观察系统发育树的聚类效果,判断分类器的分类效率。

甲型流感病毒的系统发育树

我们一般在基因水平上测试分类器的效率。这一节,我们针对甲型流感病毒的分类问题收集到 32 条来自五种致命类型的甲型流感病毒基因序列。甲型流感病毒是单链分段 RNA 病毒,我们对于甲型流感病毒的分类是根据病毒表面蛋白血凝素和神经氨酸酶来分的。甲型流感病毒十分危险,因为它们的自然宿主范围很广,包括鸟类、马、猪和人类。众所周知,它们具有高度的遗传和抗原变异性。甲型流感病毒引起了许多大型流感,其中最致命的亚型是 H1N1、H2N2、H5N1、H7N3 和 H7N9。选择这些子类型画出系统发育树来测试分类器的效率。

0b2faf46b87d0cee35257ce870cca705.png

16S 核糖体 RNA 的系统发育树

这组数据,我们选择了74条16S核糖体RNA序列。16S核糖体RNA是原核生物核糖体的亚基的重要组成部分,一个细菌细胞就可能含有多种16S核糖体RNA。16S核糖体RNA作为rRNA的一种,能够作为核糖体蛋白质结合的架构,同时因为与氢键结合,又可以增强亚基结合时的稳定性以及碱基配对的稳定性。我们收集到的74个16S核糖体RNA数据以布奇纳·阿菲迪科拉、贝纳特氏立克次体、纤维杆菌琥珀酸、奥克西托克雷白杆菌、甲苯溶解偶氮、博氏疏螺旋体、幽门螺杆菌、放线菌聚集菌、鞣革菌、梭状芽孢杆菌这10种原核生物作为来源。

354337fece125e5cafd6c0a66cf3397f.png

序列非比对方法作为生物序列比较常用的方法,因为具有步骤简化,耗时小的特点,具有十分巨大的应用前景。本文利用熵权提出了一种新的加权欧氏距离方法。并将加权欧式距离和欧式距离应用到相似性分析和系统发育树分析两方面。在相似性分析中,从k=1到k=5,加权欧氏距离的AUC值都大于欧氏距离的AUC值。在系统发育树分析中,欧氏距离与加权欧氏距离两种方法分类效果相当,都能准确将同类别的生物序列聚为一类。故结果表明基于k-mer思想,利用熵权来研究DNA序列非比对方法精确度更好,是有效的。

相关文章
|
4天前
|
存储 算法 索引
模拟算法题练习(二)(DNA序列修正、无尽的石头)
模拟算法题练习(二)(DNA序列修正、无尽的石头)
|
4天前
|
数据可视化 Go
快刀斩乱麻,二区7分今年9月发表,孟德尔随机化如何做药靶筛选?
该文章是2023年9月发表在《Journal of Translational Medicine》的孟德尔随机化研究,探索风湿性关节炎(RA)的潜在药物靶点。研究通过遗传学方法鉴定,发现7个可能的药物靶点,这些基因与免疫功能相关,有望为RA药物开发提供新方向,节省成本,并增加临床试验成功的可能性。分析过程包括MR分析、共定位、功能富集和药物预测等步骤。
24 0
|
4天前
|
Web App开发 算法 数据挖掘
JCR一区7.3分|内质网应激+分型+药物筛选分子对接
这篇研究分析了溃疡性结肠炎(UC)内质网应激相关基因特征,发表在《Frontiers in Immunology》杂志上。通过基因表达谱和加权基因共表达网络分析,研究人员识别出915个差异表达基因和11个关键的内质网应激相关基因(ERSRGs),这些基因在UC中具有诊断价值。他们还发现诺斯卡品作为小分子药物,可能通过影响ERS对UC产生治疗潜力。此外,研究揭示了ERS在UC发病机制中的重要角色,并与免疫细胞浸润和结肠粘膜侵袭相关。通过一致性聚类,确定了ERS相关的亚型,这些发现为理解UC的病理机制和潜在治疗提供了新见解。
25 0
|
4天前
leetcode-187:重复的DNA序列
leetcode-187:重复的DNA序列
30 0
|
5月前
|
算法 搜索推荐
算法分析 | 第一套(渐近分析)
算法分析 | 第一套(渐近分析)
32 0
|
7月前
|
算法
【运筹学】整数规划建模技巧
【运筹学】整数规划建模技巧
127 1
|
9月前
|
索引
LeetCode-433 最小基因变化
LeetCode-433 最小基因变化
LeetCode-433 最小基因变化
LeetCode每日一题——433. 最小基因变化
基因序列可以表示为一条由 8 个字符组成的字符串,其中每个字符都是 ‘A’、‘C’、‘G’ 和 ‘T’ 之一。
82 0
|
算法 测试技术
h0103. 末日算法 (10 分)
h0103. 末日算法 (10 分)
200 0
|
机器学习/深度学习 数据采集 SQL
学术加油站|学习型基数估计:设计方式的探索与比较
今天分享的这篇论文是李国良教授的团队今年发表的一篇综述,主要内容是从现有的学习型基数估计论文中抽象出 3 种统一工作流程,并对各个种类的基数估计方法中选择效果明显的几种作为代表,从多个方面进行全面的测试。
505 0
学术加油站|学习型基数估计:设计方式的探索与比较