BWT算法

简介: BWT算法

bwt算法是一种压缩算法,在生物信息学中,被用作序列比对,其中bwa中就有所应用。算法主要步骤可以分为编码和解码两步。

编码

假如我们现在有一个长度为6的序列AGCCAT

cdf2120d7a4623fbfb95960b70652fc1_640_wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1.png

  1. 将标识符# 放置序列末尾,然后从末尾拿一位放到第一位,如此重复7次(序列的长度 + 1)就可以产生一个7*7的字母矩阵(下图左)
  2. 选取标识符位于第一位的一行,并将其放到第一行,剩余的按照字典顺序(A>B>C>D ...)进行排序放置(下图右)

1b3defd88c1b2b8671982c5ef585a3ce_640_wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1.png

  1. 将第一列作为F(first)列,最后一列作为L(last)列,只需要保留F和L两列即可(如下图)

30af1e5682c3be61a00031281ad26538_640_wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1.png

  • L列第一个元素是原始序列AGCCAT的最后一个元素
  • 每一行中,F列元素是L列元素的下一个元素,(「T->#」「C->A」「C->C」「G->C」「A->G」
  • L列中每个元素的相对位置与F列中对应元素的相对位置具有对应关系(L列中从上往下数第一个T对应于F列中从上往下数的第一个T)

解码

解码时

  1. 先从根据F列找到同一行的L列元素,根据L列元素在L列的相对位置,去找对应的F列对应相对位置的元素(比如,第一列为**#->T**,T在L列是第一个T,那么去F列找第一个T)
  2. 找到F列的元素后,在去找同一行的L列元素,根据L列元素在L列的相对位置,再去找F列中对应相对位置的元素(比如,「T->A」,A在L列是第二个,那么去找F列的第二个A,可以得到「A->C」
  3. 重复2过程,即可将原来的序列复原(在找的过程中是先找序列中最后一个,所以找的时候需要倒着写)

序列比对

讲完了编码和解码,那么BWT算法是怎么来进行比对的呢?比如这里有AGCCAT两条序列,那么下面讲解如何使用BWT将他们比对到我们的AGCCAT中。

从上面的解码过程可以发现,我们的解码过程是从最后一位,根据F和L列的关系开始解码,即从后向前进行解码,所以比对的时候,我们也需要从后向前进行比对。

CAT

首先在F列找到T,与T同一行的为A,A在第L列中为第二个,所以找F列中第二个A对应L列为C,至此,我们找到了一条「T->A->C」的路径,这条路径就是我们需要比对的「CAT」比对结束。

AGC

对于AGC来讲,会有两个结果,因为最后一个元素为「C」,而C在F列中有两个,所以会有两条路径,使用和上面相同的方法可以得到:

  1. 对于第一个C:「C->C->G」
  2. 对于第二个C:「C->G->A」

很明显,我们发现「AGC」可以比对到从第二个C出发的路径上。


总结

BWT由于F列和L列之间的关系(L列的元素后面的那个元素是F列),使得我们的比对过程变成了寻找符合条件的路径的问题。

相关文章
|
算法
BWT (Burrows–Wheeler_transform)数据转换算法
1.什么是BWT    压缩技术主要的工作方式就是找到重复的模式,进行紧密的编码。   BWT(Burrows–Wheeler_transform)将原来的文本转换为一个相似的文本,转换后使得相同的字符位置连续或者相邻,之后可以使用其他技术如:Move-to-front transform 和 游程编码 进行文本压缩。
1327 0
|
1天前
|
算法 数据安全/隐私保护 计算机视觉
基于FPGA的图像双线性插值算法verilog实现,包括tb测试文件和MATLAB辅助验证
本项目展示了256×256图像通过双线性插值放大至512×512的效果,无水印展示。使用Matlab 2022a和Vivado 2019.2开发,提供完整代码及详细中文注释、操作视频。核心程序实现图像缩放,并在Matlab中验证效果。双线性插值算法通过FPGA高效实现图像缩放,确保质量。
|
1月前
|
算法 数据安全/隐私保护 计算机视觉
基于Retinex算法的图像去雾matlab仿真
本项目展示了基于Retinex算法的图像去雾技术。完整程序运行效果无水印,使用Matlab2022a开发。核心代码包含详细中文注释和操作步骤视频。Retinex理论由Edwin Land提出,旨在分离图像的光照和反射分量,增强图像对比度、颜色和细节,尤其在雾天条件下表现优异,有效解决图像去雾问题。
|
1月前
|
算法 数据可视化 安全
基于DWA优化算法的机器人路径规划matlab仿真
本项目基于DWA优化算法实现机器人路径规划的MATLAB仿真,适用于动态环境下的自主导航。使用MATLAB2022A版本运行,展示路径规划和预测结果。核心代码通过散点图和轨迹图可视化路径点及预测路径。DWA算法通过定义速度空间、采样候选动作并评估其优劣(目标方向性、障碍物距离、速度一致性),实时调整机器人运动参数,确保安全避障并接近目标。
147 68
|
1月前
|
算法 数据安全/隐私保护
室内障碍物射线追踪算法matlab模拟仿真
### 简介 本项目展示了室内障碍物射线追踪算法在无线通信中的应用。通过Matlab 2022a实现,包含完整程序运行效果(无水印),支持增加发射点和室内墙壁设置。核心代码配有详细中文注释及操作视频。该算法基于几何光学原理,模拟信号在复杂室内环境中的传播路径与强度,涵盖场景建模、射线发射、传播及接收点场强计算等步骤,为无线网络规划提供重要依据。
|
3天前
|
传感器 算法 物联网
基于粒子群算法的网络最优节点部署优化matlab仿真
本项目基于粒子群优化(PSO)算法,实现WSN网络节点的最优部署,以最大化节点覆盖范围。使用MATLAB2022A进行开发与测试,展示了优化后的节点分布及其覆盖范围。核心代码通过定义目标函数和约束条件,利用PSO算法迭代搜索最佳节点位置,并绘制优化结果图。PSO算法灵感源于鸟群觅食行为,适用于连续和离散空间的优化问题,在通信网络、物联网等领域有广泛应用。该算法通过模拟粒子群体智慧,高效逼近最优解,提升网络性能。
|
3天前
|
机器学习/深度学习 数据采集 算法
基于GWO灰狼优化的CNN-GRU-SAM网络时间序列回归预测算法matlab仿真
本项目基于MATLAB2022a,展示了时间序列预测算法的运行效果(无水印)。核心程序包含详细中文注释和操作视频。算法采用CNN-GRU-SAM网络,结合灰狼优化(GWO),通过卷积层提取局部特征、GRU处理长期依赖、自注意力机制捕捉全局特征,最终实现复杂非线性时间序列的高效预测。
|
23小时前
|
算法
基于SOA海鸥优化算法的三维曲面最高点搜索matlab仿真
本程序基于海鸥优化算法(SOA)进行三维曲面最高点搜索的MATLAB仿真,输出收敛曲线和搜索结果。使用MATLAB2022A版本运行,核心代码实现种群初始化、适应度计算、交叉变异等操作。SOA模拟海鸥觅食行为,通过搜索飞行、跟随飞行和掠食飞行三种策略高效探索解空间,找到全局最优解。
|
1月前
|
机器学习/深度学习 数据采集 算法
基于GA遗传优化的CNN-GRU-SAM网络时间序列回归预测算法matlab仿真
本项目基于MATLAB2022a实现时间序列预测,采用CNN-GRU-SAM网络结构。卷积层提取局部特征,GRU层处理长期依赖,自注意力机制捕捉全局特征。完整代码含中文注释和操作视频,运行效果无水印展示。算法通过数据归一化、种群初始化、适应度计算、个体更新等步骤优化网络参数,最终输出预测结果。适用于金融市场、气象预报等领域。
基于GA遗传优化的CNN-GRU-SAM网络时间序列回归预测算法matlab仿真
|
22小时前
|
算法 数据可视化 数据安全/隐私保护
一级倒立摆平衡控制系统MATLAB仿真,可显示倒立摆平衡动画,对比极点配置,线性二次型,PID,PI及PD五种算法
本课题基于MATLAB对一级倒立摆控制系统进行升级仿真,增加了PI、PD控制器,并对比了极点配置、线性二次型、PID、PI及PD五种算法的控制效果。通过GUI界面显示倒立摆动画和控制输出曲线,展示了不同控制器在偏转角和小车位移变化上的性能差异。理论部分介绍了倒立摆系统的力学模型,包括小车和杆的动力学方程。核心程序实现了不同控制算法的选择与仿真结果的可视化。
25 14

热门文章

最新文章