BWT算法

简介: BWT算法

bwt算法是一种压缩算法,在生物信息学中,被用作序列比对,其中bwa中就有所应用。算法主要步骤可以分为编码和解码两步。

编码

假如我们现在有一个长度为6的序列AGCCAT

cdf2120d7a4623fbfb95960b70652fc1_640_wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1.png

  1. 将标识符# 放置序列末尾,然后从末尾拿一位放到第一位,如此重复7次(序列的长度 + 1)就可以产生一个7*7的字母矩阵(下图左)
  2. 选取标识符位于第一位的一行,并将其放到第一行,剩余的按照字典顺序(A>B>C>D ...)进行排序放置(下图右)

1b3defd88c1b2b8671982c5ef585a3ce_640_wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1.png

  1. 将第一列作为F(first)列,最后一列作为L(last)列,只需要保留F和L两列即可(如下图)

30af1e5682c3be61a00031281ad26538_640_wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1.png

  • L列第一个元素是原始序列AGCCAT的最后一个元素
  • 每一行中,F列元素是L列元素的下一个元素,(「T->#」「C->A」「C->C」「G->C」「A->G」
  • L列中每个元素的相对位置与F列中对应元素的相对位置具有对应关系(L列中从上往下数第一个T对应于F列中从上往下数的第一个T)

解码

解码时

  1. 先从根据F列找到同一行的L列元素,根据L列元素在L列的相对位置,去找对应的F列对应相对位置的元素(比如,第一列为**#->T**,T在L列是第一个T,那么去F列找第一个T)
  2. 找到F列的元素后,在去找同一行的L列元素,根据L列元素在L列的相对位置,再去找F列中对应相对位置的元素(比如,「T->A」,A在L列是第二个,那么去找F列的第二个A,可以得到「A->C」
  3. 重复2过程,即可将原来的序列复原(在找的过程中是先找序列中最后一个,所以找的时候需要倒着写)

序列比对

讲完了编码和解码,那么BWT算法是怎么来进行比对的呢?比如这里有AGCCAT两条序列,那么下面讲解如何使用BWT将他们比对到我们的AGCCAT中。

从上面的解码过程可以发现,我们的解码过程是从最后一位,根据F和L列的关系开始解码,即从后向前进行解码,所以比对的时候,我们也需要从后向前进行比对。

CAT

首先在F列找到T,与T同一行的为A,A在第L列中为第二个,所以找F列中第二个A对应L列为C,至此,我们找到了一条「T->A->C」的路径,这条路径就是我们需要比对的「CAT」比对结束。

AGC

对于AGC来讲,会有两个结果,因为最后一个元素为「C」,而C在F列中有两个,所以会有两条路径,使用和上面相同的方法可以得到:

  1. 对于第一个C:「C->C->G」
  2. 对于第二个C:「C->G->A」

很明显,我们发现「AGC」可以比对到从第二个C出发的路径上。


总结

BWT由于F列和L列之间的关系(L列的元素后面的那个元素是F列),使得我们的比对过程变成了寻找符合条件的路径的问题。

相关文章
|
算法
BWT (Burrows–Wheeler_transform)数据转换算法
1.什么是BWT    压缩技术主要的工作方式就是找到重复的模式,进行紧密的编码。   BWT(Burrows–Wheeler_transform)将原来的文本转换为一个相似的文本,转换后使得相同的字符位置连续或者相邻,之后可以使用其他技术如:Move-to-front transform 和 游程编码 进行文本压缩。
1285 0
|
12天前
|
算法 BI Serverless
基于鱼群算法的散热片形状优化matlab仿真
本研究利用浴盆曲线模拟空隙外形,并通过鱼群算法(FSA)优化浴盆曲线参数,以获得最佳孔隙度值及对应的R值。FSA通过模拟鱼群的聚群、避障和觅食行为,实现高效全局搜索。具体步骤包括初始化鱼群、计算适应度值、更新位置及判断终止条件。最终确定散热片的最佳形状参数。仿真结果显示该方法能显著提高优化效率。相关代码使用MATLAB 2022a实现。
|
12天前
|
算法 数据可视化
基于SSA奇异谱分析算法的时间序列趋势线提取matlab仿真
奇异谱分析(SSA)是一种基于奇异值分解(SVD)和轨迹矩阵的非线性、非参数时间序列分析方法,适用于提取趋势、周期性和噪声成分。本项目使用MATLAB 2022a版本实现从强干扰序列中提取趋势线,并通过可视化展示了原时间序列与提取的趋势分量。代码实现了滑动窗口下的奇异值分解和分组重构,适用于非线性和非平稳时间序列分析。此方法在气候变化、金融市场和生物医学信号处理等领域有广泛应用。
|
1月前
|
算法
基于模糊控制算法的倒立摆控制系统matlab仿真
本项目构建了一个基于模糊控制算法的倒立摆控制系统,利用MATLAB 2022a实现了从不稳定到稳定状态的转变,并输出了相应的动画和收敛过程。模糊控制器通过对小车位置与摆的角度误差及其变化量进行模糊化处理,依据预设的模糊规则库进行模糊推理并最终去模糊化为精确的控制量,成功地使倒立摆维持在直立位置。该方法无需精确数学模型,适用于处理系统的非线性和不确定性。
基于模糊控制算法的倒立摆控制系统matlab仿真
|
13天前
|
资源调度 算法
基于迭代扩展卡尔曼滤波算法的倒立摆控制系统matlab仿真
本课题研究基于迭代扩展卡尔曼滤波算法的倒立摆控制系统,并对比UKF、EKF、迭代UKF和迭代EKF的控制效果。倒立摆作为典型的非线性系统,适用于评估不同滤波方法的性能。UKF采用无迹变换逼近非线性函数,避免了EKF中的截断误差;EKF则通过泰勒级数展开近似非线性函数;迭代EKF和迭代UKF通过多次迭代提高状态估计精度。系统使用MATLAB 2022a进行仿真和分析,结果显示UKF和迭代UKF在非线性强的系统中表现更佳,但计算复杂度较高;EKF和迭代EKF则更适合维数较高或计算受限的场景。
|
14天前
|
算法
基于SIR模型的疫情发展趋势预测算法matlab仿真
该程序基于SIR模型预测疫情发展趋势,通过MATLAB 2022a版实现病例增长拟合分析,比较疫情防控力度。使用SIR微分方程模型拟合疫情发展过程,优化参数并求解微分方程组以预测易感者(S)、感染者(I)和移除者(R)的数量变化。![]该模型将总人群分为S、I、R三部分,通过解析或数值求解微分方程组预测疫情趋势。
|
14天前
|
算法 数据可视化 数据安全/隐私保护
基于LK光流提取算法的图像序列晃动程度计算matlab仿真
该算法基于Lucas-Kanade光流方法,用于计算图像序列的晃动程度。通过计算相邻帧间的光流场并定义晃动程度指标(如RMS),可量化图像晃动。此版本适用于Matlab 2022a,提供详细中文注释与操作视频。完整代码无水印。
|
3天前
|
算法
基于极大似然算法的系统参数辨识matlab仿真
本程序基于极大似然算法实现系统参数辨识,对参数a1、b1、a2、b2进行估计,并计算估计误差及收敛曲线,对比不同信噪比下的误差表现。在MATLAB2022a版本中运行,展示了参数估计值及其误差曲线。极大似然估计方法通过最大化观测数据的似然函数来估计未知参数,适用于多种系统模型。
|
5天前
|
机器学习/深度学习 算法
基于小波神经网络的数据分类算法matlab仿真
该程序基于小波神经网络实现数据分类,输入为5个特征值,输出为“是”或“否”。使用MATLAB 2022a版本,50组数据训练,30组数据验证。通过小波函数捕捉数据局部特征,提高分类性能。训练误差和识别结果通过图表展示。
|
29天前
|
算法 数据安全/隐私保护
基于LS算法的OFDM+QPSK系统信道估计均衡matlab性能仿真
基于MATLAB 2022a的仿真展示了OFDM+QPSK系统中最小二乘(LS)算法的信道估计与均衡效果。OFDM利用多个低速率子载波提高频谱效率,通过循环前缀克服多径衰落。LS算法依据导频符号估计信道参数,进而设计均衡器以恢复数据符号。核心程序实现了OFDM信号处理流程,包括加性高斯白噪声的加入、保护间隔去除、快速傅立叶变换及信道估计与均衡等步骤,并最终计算误码率,验证了算法的有效性。
46 2