跟着Nature Communications学数据分析:基因组水平的比对鉴定结构变异

简介: 跟着Nature Communications学数据分析:基因组水平的比对鉴定结构变异

论文

Pan-genome inversion index reveals evolutionary insights into the subpopulation structure of Asian rice

https://www.nature.com/articles/s41467-023-37004-y

水稻PangenomeInversionNC.pdf

基因组水平比对然后鉴定结构变异的代码

https://github.com/YongZhou2019/YongZhou2019.github.io/tree/main/Rice-Population-Reference-Panel/software/sv-for-o.sativa

论文中关注的结构变异主要是Inversion

用4个流程鉴定Inversion,然后对4个流程的结果进行评估

1和2流程是把已经组装好的染色体进行滑动窗口的切分,相当于是把组装好的染色体重新打散成为了long reads,比对软件选择NGMLR,变异检测软件分别选择SVIM和Sniffles

3和4流程是在全基因组水平进行比对,比对软件分别选择minimap2和nucmer,然后变异检测软件选择的是syri

然后是对着四种方法进行评估,具体怎么评估没太看明白,还需要再仔细看,最终选择的是mummer完整基因组水平上的比对 然后用syri软件去检测变异的方法

接下来参考论文中提供的第四个流程的代码,用拟南芥的数据试试

首先是mummer比对

 nucmer -t 8 -p output An1.fa Ler.fa
delta-filter -i 95 -l 15000 -o 95 output.delta -1 > output.delta.best
show-snps -Clr output.delta.best > output.delta.best.snps
# 这一步会获得ps格式的图
mummerplot -p output.best output.delta.best -t postscript
# ps转换成pdf
ps2pdf output.best.ps output.best.pdf
# pdf 转换成png
convert -density 300 output.best.pdf output.best.png

image.png

接下来是利用syri做变异检测

syri直接使用conda安装就可以

delta-filter -m -i 80 -l 100 output.delta > m_i80_l100.delta
show-coords -THrd m_i80_l100.delta > m_i80_l100.coords
syri -c m_i80_l100.coords -d m_i80_l100.delta -r An1.fa -q Ler.fa --prefix An1Ler --nc 8
# 运行完会对应着生成一个vcf文件
# syri这个软件有着一个对应的画图程序plostr

plotsr --sr An1Lersyri.out --genomes genomes.txt -W 10 -H 8 -o An1Ler.pdf

最终出图

image.png

拟南芥小基因组的整个过程计算还是挺快的

抽空再仔细看看论文的结果描述和讨论

image.png
欢迎大家关注我的公众号

小明的数据分析笔记本

小明的数据分析笔记本 公众号 主要分享:1、R语言和python做数据分析和数据可视化的简单小例子;2、园艺植物相关转录组学、基因组学、群体遗传学文献阅读笔记;3、生物信息学入门学习资料及自己的学习笔记!

微信公众号好像又有改动,如果没有将这个公众号设为星标的话,会经常错过公众号的推文,个人建议将 小明的数据分析笔记本 公众号添加星标,添加方法是

点开公众号的页面,右上角有三个点

image.png

点击三个点,会跳出界面

image.png

直接点击 设为星标 就可以了

相关文章
|
数据可视化 数据挖掘 Python
跟着Science学数据分析:利用三代测序数据(PacBio)鉴定结构变异
跟着Science学数据分析:利用三代测序数据(PacBio)鉴定结构变异
|
数据可视化 数据挖掘 数据处理
跟着Nature Genetics学数据分析:使用GEC软件计算有效位点数从而确定GWAS的阈值
跟着Nature Genetics学数据分析:使用GEC软件计算有效位点数从而确定GWAS的阈值
|
机器学习/深度学习 数据可视化 数据挖掘
跟着Nature Communications学数据分析:R语言做随机森林模型并对变量重要性排序
跟着Nature Communications学数据分析:R语言做随机森林模型并对变量重要性排序
|
机器学习/深度学习 数据可视化 数据挖掘
跟着Nature Genetics学数据分析:nucmer+lastz+svum流程全基因组比对鉴定CNV
跟着Nature Genetics学数据分析:nucmer+lastz+svum流程全基因组比对鉴定CNV
|
数据挖掘 索引 Python
数据分析处理库Pandas-Series结构
数据分析处理库Pandas-Series结构
|
数据挖掘 索引 Python
【Python数据分析 - 12】:Series结构、pandas中值的获取和修改、切片操作与排序(pandas篇)
【Python数据分析 - 12】:Series结构、pandas中值的获取和修改、切片操作与排序(pandas篇)
187 0
【Python数据分析 - 12】:Series结构、pandas中值的获取和修改、切片操作与排序(pandas篇)
|
17天前
|
机器学习/深度学习 数据采集 数据挖掘
如何用Python进行数据分析?
【6月更文挑战第13天】如何用Python进行数据分析?
118 66
|
4天前
|
数据可视化 数据挖掘 知识图谱
精选:15款顶尖Python知识图谱(关系网络)绘制工具,数据分析的强力助手
这里有15款免费工具推荐:NetworkX(Python基础),Graph-tool(C++速度),Graphviz(可视化库),ipycytoscape(Jupyter集成),ipydagred3,ipySigma(NetworkX + Web),Netwulf(交互式),nxviz(Matplotlib绑定),Py3plex(复杂网络分析),Py4cytoscape(Python+Cytoscape),pydot(Graphviz接口),PyGraphistry(GPU加速),python-igraph,pyvis(交互式图形),SNAP(大规模网络分析)。绘制和理解网络图从未如此简单!
13 0
|
5天前
|
机器学习/深度学习 自然语言处理 数据挖掘
使用Python和大模型进行数据分析和文本生成
Python语言以其简洁和强大的特性,成为了数据科学、机器学习和人工智能开发的首选语言之一。随着大模型(Large Language Models, LLMs)如GPT-4的崛起,我们能够利用这些模型实现诸多复杂任务,从文本生成到智能对话、数据分析等等。在这篇文章中,我将介绍如何用Python连接和使用大模型,并通过示例展示如何在实际项目中应用这些技术。
|
14天前
|
数据采集 数据可视化 数据挖掘
数据挖掘实战:使用Python进行数据分析与可视化
在大数据时代,Python因其强大库支持和易学性成为数据挖掘的首选语言。本文通过一个电商销售数据案例,演示如何使用Python进行数据预处理(如处理缺失值)、分析(如销售额时间趋势)和可视化(如商品类别销售条形图),揭示数据背后的模式。安装`pandas`, `numpy`, `matplotlib`, `seaborn`后,可以按照提供的代码步骤,从读取CSV到数据探索,体验Python在数据分析中的威力。这只是数据科学的入门,更多高级技术等待发掘。【6月更文挑战第14天】
50 11

热门文章

最新文章