BWT算法

简介: BWT算法

bwt算法是一种压缩算法,在生物信息学中,被用作序列比对,其中bwa中就有所应用。算法主要步骤可以分为编码和解码两步。

编码

假如我们现在有一个长度为6的序列AGCCAT

cdf2120d7a4623fbfb95960b70652fc1_640_wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1.png

  1. 将标识符# 放置序列末尾,然后从末尾拿一位放到第一位,如此重复7次(序列的长度 + 1)就可以产生一个7*7的字母矩阵(下图左)
  2. 选取标识符位于第一位的一行,并将其放到第一行,剩余的按照字典顺序(A>B>C>D ...)进行排序放置(下图右)

1b3defd88c1b2b8671982c5ef585a3ce_640_wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1.png

  1. 将第一列作为F(first)列,最后一列作为L(last)列,只需要保留F和L两列即可(如下图)

30af1e5682c3be61a00031281ad26538_640_wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1.png

  • L列第一个元素是原始序列AGCCAT的最后一个元素
  • 每一行中,F列元素是L列元素的下一个元素,(「T->#」「C->A」「C->C」「G->C」「A->G」
  • L列中每个元素的相对位置与F列中对应元素的相对位置具有对应关系(L列中从上往下数第一个T对应于F列中从上往下数的第一个T)

解码

解码时

  1. 先从根据F列找到同一行的L列元素,根据L列元素在L列的相对位置,去找对应的F列对应相对位置的元素(比如,第一列为**#->T**,T在L列是第一个T,那么去F列找第一个T)
  2. 找到F列的元素后,在去找同一行的L列元素,根据L列元素在L列的相对位置,再去找F列中对应相对位置的元素(比如,「T->A」,A在L列是第二个,那么去找F列的第二个A,可以得到「A->C」
  3. 重复2过程,即可将原来的序列复原(在找的过程中是先找序列中最后一个,所以找的时候需要倒着写)

序列比对

讲完了编码和解码,那么BWT算法是怎么来进行比对的呢?比如这里有AGCCAT两条序列,那么下面讲解如何使用BWT将他们比对到我们的AGCCAT中。

从上面的解码过程可以发现,我们的解码过程是从最后一位,根据F和L列的关系开始解码,即从后向前进行解码,所以比对的时候,我们也需要从后向前进行比对。

CAT

首先在F列找到T,与T同一行的为A,A在第L列中为第二个,所以找F列中第二个A对应L列为C,至此,我们找到了一条「T->A->C」的路径,这条路径就是我们需要比对的「CAT」比对结束。

AGC

对于AGC来讲,会有两个结果,因为最后一个元素为「C」,而C在F列中有两个,所以会有两条路径,使用和上面相同的方法可以得到:

  1. 对于第一个C:「C->C->G」
  2. 对于第二个C:「C->G->A」

很明显,我们发现「AGC」可以比对到从第二个C出发的路径上。


总结

BWT由于F列和L列之间的关系(L列的元素后面的那个元素是F列),使得我们的比对过程变成了寻找符合条件的路径的问题。

相关文章
|
算法
BWT (Burrows–Wheeler_transform)数据转换算法
1.什么是BWT    压缩技术主要的工作方式就是找到重复的模式,进行紧密的编码。   BWT(Burrows–Wheeler_transform)将原来的文本转换为一个相似的文本,转换后使得相同的字符位置连续或者相邻,之后可以使用其他技术如:Move-to-front transform 和 游程编码 进行文本压缩。
1314 0
|
17天前
|
算法
基于WOA算法的SVDD参数寻优matlab仿真
该程序利用鲸鱼优化算法(WOA)对支持向量数据描述(SVDD)模型的参数进行优化,以提高数据分类的准确性。通过MATLAB2022A实现,展示了不同信噪比(SNR)下模型的分类误差。WOA通过模拟鲸鱼捕食行为,动态调整SVDD参数,如惩罚因子C和核函数参数γ,以寻找最优参数组合,增强模型的鲁棒性和泛化能力。
|
23天前
|
机器学习/深度学习 算法 Serverless
基于WOA-SVM的乳腺癌数据分类识别算法matlab仿真,对比BP神经网络和SVM
本项目利用鲸鱼优化算法(WOA)优化支持向量机(SVM)参数,针对乳腺癌早期诊断问题,通过MATLAB 2022a实现。核心代码包括参数初始化、目标函数计算、位置更新等步骤,并附有详细中文注释及操作视频。实验结果显示,WOA-SVM在提高分类精度和泛化能力方面表现出色,为乳腺癌的早期诊断提供了有效的技术支持。
|
3天前
|
供应链 算法 调度
排队算法的matlab仿真,带GUI界面
该程序使用MATLAB 2022A版本实现排队算法的仿真,并带有GUI界面。程序支持单队列单服务台、单队列多服务台和多队列多服务台三种排队方式。核心函数`func_mms2`通过模拟到达时间和服务时间,计算阻塞率和利用率。排队论研究系统中顾客和服务台的交互行为,广泛应用于通信网络、生产调度和服务行业等领域,旨在优化系统性能,减少等待时间,提高资源利用率。
|
11天前
|
存储 算法
基于HMM隐马尔可夫模型的金融数据预测算法matlab仿真
本项目基于HMM模型实现金融数据预测,包括模型训练与预测两部分。在MATLAB2022A上运行,通过计算状态转移和观测概率预测未来值,并绘制了预测值、真实值及预测误差的对比图。HMM模型适用于金融市场的时间序列分析,能够有效捕捉隐藏状态及其转换规律,为金融预测提供有力工具。
|
19天前
|
算法
基于GA遗传算法的PID控制器参数优化matlab建模与仿真
本项目基于遗传算法(GA)优化PID控制器参数,通过空间状态方程构建控制对象,自定义GA的选择、交叉、变异过程,以提高PID控制性能。与使用通用GA工具箱相比,此方法更灵活、针对性强。MATLAB2022A环境下测试,展示了GA优化前后PID控制效果的显著差异。核心代码实现了遗传算法的迭代优化过程,最终通过适应度函数评估并选择了最优PID参数,显著提升了系统响应速度和稳定性。
|
11天前
|
机器学习/深度学习 算法 信息无障碍
基于GoogleNet深度学习网络的手语识别算法matlab仿真
本项目展示了基于GoogleNet的深度学习手语识别算法,使用Matlab2022a实现。通过卷积神经网络(CNN)识别手语手势,如"How are you"、"I am fine"、"I love you"等。核心在于Inception模块,通过多尺度处理和1x1卷积减少计算量,提高效率。项目附带完整代码及操作视频。
|
16天前
|
算法
基于WOA鲸鱼优化的购售电收益与风险评估算法matlab仿真
本研究提出了一种基于鲸鱼优化算法(WOA)的购售电收益与风险评估算法。通过将售电公司购售电收益风险计算公式作为WOA的目标函数,经过迭代优化计算出最优购电策略。实验结果表明,在迭代次数超过10次后,风险价值收益优化值达到1715.1万元的最大值。WOA还确定了中长期市场、现货市场及可再生能源等不同市场的最优购电量,验证了算法的有效性。核心程序使用MATLAB2022a实现,通过多次迭代优化,实现了售电公司收益最大化和风险最小化的目标。
|
20天前
|
算法
通过matlab分别对比PSO,反向学习PSO,多策略改进反向学习PSO三种优化算法
本项目使用MATLAB2022A版本,对比分析了PSO、反向学习PSO及多策略改进反向学习PSO三种优化算法的性能,主要通过优化收敛曲线进行直观展示。核心代码实现了标准PSO算法流程,加入反向学习机制及多种改进策略,以提升算法跳出局部最优的能力,增强全局搜索效率。
|
14天前
|
机器学习/深度学习 算法 数据安全/隐私保护
基于深度学习网络的宝石类型识别算法matlab仿真
本项目利用GoogLeNet深度学习网络进行宝石类型识别,实验包括收集多类宝石图像数据集并按7:1:2比例划分。使用Matlab2022a实现算法,提供含中文注释的完整代码及操作视频。GoogLeNet通过其独特的Inception模块,结合数据增强、学习率调整和正则化等优化手段,有效提升了宝石识别的准确性和效率。