R软件基于k-mer 的DNA分子序列比较研究及其应用

简介: R软件基于k-mer 的DNA分子序列比较研究及其应用


科学技术的发展为各个领域都带来了深刻的变革,在生物学领域,随着计算机的应用,生物学与信息学的结合诞生了一门新的融合学科——生物信息学点击文末“阅读原文”了解更多


作为生物信息学的重要研究内容之一,生物序列比较成为当下热点问题。基于k-mer的DNA分子序列比较研究是序列比较的一种,该方法以进化论作为依据,从序列的相似性出发探究同源的可能性。关于相似度的计算,首先将生物序列转化为k-mer的词频向量,然后利用距离公式求得生物序列的距离矩阵作为相似度的量化。基于k-mer的DNA分子序列比较研究在这篇论文中采用以熵权作为权重的加权欧氏距离与欧氏距离两种方法计算相似度。最后,通过相似性分析与系统发育树分析测试两种方法的分类效率,评价方法的应用效果。

考虑到生物序列非比对方法的优点,本文将重点放在研究基于k-mer的非比对方法上,并将熵权应用到相似度的计算上,将相似度量化,利用距离来反映物种之间的亲缘关系。论文的主要工作如下:(1)数据收集。针对本文研究内容收集相应生物序列数据,整理成文件。(2)k-mer的读取。利用R编程软件,给定不同的k值计算基因序列的k-mer出现的频率,将每个物种不同k-mer出现的频率写成4k维频率向量,再将多个物种向量合并成矩阵形式。(3)计算熵权。熵权代表了指标的重要性,根据熵权法的定义,在获得归一化的评价指标的判断矩阵后,根据熵权计算公式用判断矩阵计算出全部4k个k-mer的熵权。(4)量化相似度。在欧氏距离的基础上,结合第三步所得到的熵权,计算出物种之间的加权距离,并写成距离矩阵以便直观观察到物种之间基因序列的相似程度,从而大致判断出物种的亲缘关系。相似性分析。根据收集到的数据分别计算出欧氏距离矩阵与加权欧氏距离矩阵,在利用R软件画出两种方法的ROC图,计算对应AUC值,根据AUC值的大小分析哪种方法具有更好的分类效果。

k=5 时ROC 曲线与 AUC 值

6752f23e3ac47beee94db1815a424329.png

AUC值

cfae3dcccd93faad1da8ea102ae2a974.png

AUC 值通常用作衡量总体判别精度的指标。图是 k 取值从 1 到 5 时欧氏距离与加权欧氏距离两种方法下的 ROC 曲线,表 是 k 取值从 1 到 5 时两种方法的 AUC 值。从图表中观察到,无论 k 取何值,加权欧式距离的 AUC 值始终高于欧氏距离的 AUC 值,并且加权欧氏距离在 k=2 时其 AUC 值达到最高,为 0.9079,说明加权欧氏距离的方法比欧式距离在分类上更具有效率。


点击标题查阅往期内容


R语言分析蛋白质组学数据:飞行时间质谱(MALDI-TOF)法、峰值检测、多光谱比较



左右滑动查看更多



01




系统发育树分析

在距离矩阵的基础上利用 R软件对数据进行聚类分析,画出两种方法的系统发育树,通过观察系统发育树的聚类效果,判断分类器的分类效率。

甲型流感病毒的系统发育树

我们一般在基因水平上测试分类器的效率。这一节,我们针对甲型流感病毒的分类问题收集到 32 条来自五种致命类型的甲型流感病毒基因序列。甲型流感病毒是单链分段 RNA 病毒,我们对于甲型流感病毒的分类是根据病毒表面蛋白血凝素和神经氨酸酶来分的。甲型流感病毒十分危险,因为它们的自然宿主范围很广,包括鸟类、马、猪和人类。众所周知,它们具有高度的遗传和抗原变异性。甲型流感病毒引起了许多大型流感,其中最致命的亚型是 H1N1、H2N2、H5N1、H7N3 和 H7N9。选择这些子类型画出系统发育树来测试分类器的效率。

0b2faf46b87d0cee35257ce870cca705.png

16S 核糖体 RNA 的系统发育树

这组数据,我们选择了74条16S核糖体RNA序列。16S核糖体RNA是原核生物核糖体的亚基的重要组成部分,一个细菌细胞就可能含有多种16S核糖体RNA。16S核糖体RNA作为rRNA的一种,能够作为核糖体蛋白质结合的架构,同时因为与氢键结合,又可以增强亚基结合时的稳定性以及碱基配对的稳定性。我们收集到的74个16S核糖体RNA数据以布奇纳·阿菲迪科拉、贝纳特氏立克次体、纤维杆菌琥珀酸、奥克西托克雷白杆菌、甲苯溶解偶氮、博氏疏螺旋体、幽门螺杆菌、放线菌聚集菌、鞣革菌、梭状芽孢杆菌这10种原核生物作为来源。

354337fece125e5cafd6c0a66cf3397f.png

序列非比对方法作为生物序列比较常用的方法,因为具有步骤简化,耗时小的特点,具有十分巨大的应用前景。本文利用熵权提出了一种新的加权欧氏距离方法。并将加权欧式距离和欧式距离应用到相似性分析和系统发育树分析两方面。在相似性分析中,从k=1到k=5,加权欧氏距离的AUC值都大于欧氏距离的AUC值。在系统发育树分析中,欧氏距离与加权欧氏距离两种方法分类效果相当,都能准确将同类别的生物序列聚为一类。故结果表明基于k-mer思想,利用熵权来研究DNA序列非比对方法精确度更好,是有效的。

相关文章
|
7月前
|
存储 算法 索引
模拟算法题练习(二)(DNA序列修正、无尽的石头)
模拟算法题练习(二)(DNA序列修正、无尽的石头)
|
7月前
|
算法 Java C语言
第十四届蓝桥杯集训——练习解题阶段(无序阶段)-ALGO-478 分数序列
第十四届蓝桥杯集训——练习解题阶段(无序阶段)-ALGO-478 分数序列
34 0
|
7月前
|
算法 Java C语言
第十四届蓝桥杯集训——练习解题阶段(无序阶段)-ALGO-982 最小距离
第十四届蓝桥杯集训——练习解题阶段(无序阶段)-ALGO-982 最小距离
47 0
|
7月前
|
算法 Java C语言
第十四届蓝桥杯集训——练习解题阶段(无序阶段)-ALGO-439 算法训练 简单字符变换
第十四届蓝桥杯集训——练习解题阶段(无序阶段)-ALGO-439 算法训练 简单字符变换
56 1
|
7月前
|
Java C语言 C++
第十四届蓝桥杯集训——练习解题阶段(无序阶段)-ALGO-443 输出数字除本身的所有因子和
第十四届蓝桥杯集训——练习解题阶段(无序阶段)-ALGO-443 输出数字除本身的所有因子和
42 1
|
7月前
|
算法 Java Serverless
第十四届蓝桥杯集训——练习解题阶段(无序阶段)-ALGO-444 算法训练 求和问题
第十四届蓝桥杯集训——练习解题阶段(无序阶段)-ALGO-444 算法训练 求和问题
60 1
|
7月前
|
算法 Java C语言
第十四届蓝桥杯集训——练习解题阶段(无序阶段)-ALGO-1 算法训练 区间k大数查询
第十四届蓝桥杯集训——练习解题阶段(无序阶段)-ALGO-1 算法训练 区间k大数查询
46 0
|
7月前
|
算法 Java C语言
第十四届蓝桥杯集训——练习解题阶段(无序阶段)-ALGO-49 算法训练 寻找数组中最大值
第十四届蓝桥杯集训——练习解题阶段(无序阶段)-ALGO-49 算法训练 寻找数组中最大值
57 0
|
6月前
|
算法
【经典LeetCode算法题目专栏分类】【第4期】BFS广度优先算法:单词接龙、最小基因变化、二进制矩阵中的最短路径
【经典LeetCode算法题目专栏分类】【第4期】BFS广度优先算法:单词接龙、最小基因变化、二进制矩阵中的最短路径
|
7月前
|
搜索推荐 数据挖掘 Java
文献速读|7分的干湿结合胃癌单细胞联合bulk转录组+线粒体自噬
研究人员通过单细胞和bulk RNA测序,鉴定出18个线粒体自噬相关基因(MRGs),在胃癌中的预后作用。这些基因可能成为新的生物标志物和治疗靶点。分析显示GABARAPL2和CDC37在上皮细胞中高度表达,与免疫浸润和预后相关。构建的风险模型在多个独立队列中验证有效,表明MRGs可改善预后预测,并提示免疫治疗潜力。研究强调了单细胞分析在理解疾病复杂性和指导个性化治疗中的价值。
161 3