跟着Nature Communications学数据分析:基因组水平的比对鉴定结构变异

简介: 跟着Nature Communications学数据分析:基因组水平的比对鉴定结构变异

论文

Pan-genome inversion index reveals evolutionary insights into the subpopulation structure of Asian rice

https://www.nature.com/articles/s41467-023-37004-y

水稻PangenomeInversionNC.pdf

基因组水平比对然后鉴定结构变异的代码

https://github.com/YongZhou2019/YongZhou2019.github.io/tree/main/Rice-Population-Reference-Panel/software/sv-for-o.sativa

论文中关注的结构变异主要是Inversion

用4个流程鉴定Inversion,然后对4个流程的结果进行评估

1和2流程是把已经组装好的染色体进行滑动窗口的切分,相当于是把组装好的染色体重新打散成为了long reads,比对软件选择NGMLR,变异检测软件分别选择SVIM和Sniffles

3和4流程是在全基因组水平进行比对,比对软件分别选择minimap2和nucmer,然后变异检测软件选择的是syri

然后是对着四种方法进行评估,具体怎么评估没太看明白,还需要再仔细看,最终选择的是mummer完整基因组水平上的比对 然后用syri软件去检测变异的方法

接下来参考论文中提供的第四个流程的代码,用拟南芥的数据试试

首先是mummer比对

 nucmer -t 8 -p output An1.fa Ler.fa
delta-filter -i 95 -l 15000 -o 95 output.delta -1 > output.delta.best
show-snps -Clr output.delta.best > output.delta.best.snps
# 这一步会获得ps格式的图
mummerplot -p output.best output.delta.best -t postscript
# ps转换成pdf
ps2pdf output.best.ps output.best.pdf
# pdf 转换成png
convert -density 300 output.best.pdf output.best.png

image.png

接下来是利用syri做变异检测

syri直接使用conda安装就可以

delta-filter -m -i 80 -l 100 output.delta > m_i80_l100.delta
show-coords -THrd m_i80_l100.delta > m_i80_l100.coords
syri -c m_i80_l100.coords -d m_i80_l100.delta -r An1.fa -q Ler.fa --prefix An1Ler --nc 8
# 运行完会对应着生成一个vcf文件
# syri这个软件有着一个对应的画图程序plostr

plotsr --sr An1Lersyri.out --genomes genomes.txt -W 10 -H 8 -o An1Ler.pdf

最终出图

image.png

拟南芥小基因组的整个过程计算还是挺快的

抽空再仔细看看论文的结果描述和讨论

image.png
欢迎大家关注我的公众号

小明的数据分析笔记本

小明的数据分析笔记本 公众号 主要分享:1、R语言和python做数据分析和数据可视化的简单小例子;2、园艺植物相关转录组学、基因组学、群体遗传学文献阅读笔记;3、生物信息学入门学习资料及自己的学习笔记!

微信公众号好像又有改动,如果没有将这个公众号设为星标的话,会经常错过公众号的推文,个人建议将 小明的数据分析笔记本 公众号添加星标,添加方法是

点开公众号的页面,右上角有三个点

image.png

点击三个点,会跳出界面

image.png

直接点击 设为星标 就可以了

相关文章
|
4月前
|
数据采集 数据挖掘 大数据
Pandas是Python数据分析的核心库,基于NumPy,提供DataFrame结构处理结构化数据
【7月更文挑战第5天】Pandas是Python数据分析的核心库,基于NumPy,提供DataFrame结构处理结构化数据。它支持缺失值处理(dropna()、fillna())、异常值检测(Z-Score、IQR法)和重复值管理(duplicated()、drop_duplicates())。此外,数据转换包括类型转换(astype())、数据标准化(Min-Max、Z-Score)以及类别编码(get_dummies())。这些功能使得Pandas成为大数据预处理的强大工具。
52 0
|
数据可视化 数据挖掘 Python
跟着Science学数据分析:利用三代测序数据(PacBio)鉴定结构变异
跟着Science学数据分析:利用三代测序数据(PacBio)鉴定结构变异
|
数据可视化 数据挖掘 数据处理
跟着Nature Genetics学数据分析:使用GEC软件计算有效位点数从而确定GWAS的阈值
跟着Nature Genetics学数据分析:使用GEC软件计算有效位点数从而确定GWAS的阈值
|
机器学习/深度学习 数据可视化 数据挖掘
跟着Nature Communications学数据分析:R语言做随机森林模型并对变量重要性排序
跟着Nature Communications学数据分析:R语言做随机森林模型并对变量重要性排序
|
机器学习/深度学习 数据可视化 数据挖掘
跟着Nature Genetics学数据分析:nucmer+lastz+svum流程全基因组比对鉴定CNV
跟着Nature Genetics学数据分析:nucmer+lastz+svum流程全基因组比对鉴定CNV
|
数据挖掘 索引 Python
数据分析处理库Pandas-Series结构
数据分析处理库Pandas-Series结构
|
3月前
|
数据采集 数据可视化 数据挖掘
数据分析大神养成记:Python+Pandas+Matplotlib助你飞跃!
在数字化时代,数据分析至关重要,而Python凭借其强大的数据处理能力和丰富的库支持,已成为该领域的首选工具。Python作为基石,提供简洁语法和全面功能,适用于从数据预处理到高级分析的各种任务。Pandas库则像是神兵利器,其DataFrame结构让表格型数据的处理变得简单高效,支持数据的增删改查及复杂变换。配合Matplotlib这一数据可视化的魔法棒,能以直观图表展现数据分析结果。掌握这三大神器,你也能成为数据分析领域的高手!
77 2
|
3月前
|
机器学习/深度学习 数据采集 数据可视化
基于爬虫和机器学习的招聘数据分析与可视化系统,python django框架,前端bootstrap,机器学习有八种带有可视化大屏和后台
本文介绍了一个基于Python Django框架和Bootstrap前端技术,集成了机器学习算法和数据可视化的招聘数据分析与可视化系统,该系统通过爬虫技术获取职位信息,并使用多种机器学习模型进行薪资预测、职位匹配和趋势分析,提供了一个直观的可视化大屏和后台管理系统,以优化招聘策略并提升决策质量。
169 4
|
3月前
|
机器学习/深度学习 算法 数据挖掘
2023 年第二届钉钉杯大学生大数据挑战赛初赛 初赛 A:智能手机用户监测数据分析 问题二分类与回归问题Python代码分析
本文介绍了2023年第二届钉钉杯大学生大数据挑战赛初赛A题的Python代码分析,涉及智能手机用户监测数据分析中的聚类分析和APP使用情况的分类与回归问题。
84 0
2023 年第二届钉钉杯大学生大数据挑战赛初赛 初赛 A:智能手机用户监测数据分析 问题二分类与回归问题Python代码分析
|
7天前
|
SQL 数据挖掘 Python
数据分析编程:SQL,Python or SPL?
数据分析编程用什么,SQL、python or SPL?话不多说,直接上代码,对比明显,明眼人一看就明了:本案例涵盖五个数据分析任务:1) 计算用户会话次数;2) 球员连续得分分析;3) 连续三天活跃用户数统计;4) 新用户次日留存率计算;5) 股价涨跌幅分析。每个任务基于相应数据表进行处理和计算。