跟着Nature Genetics学数据分析:使用GEC软件计算有效位点数从而确定GWAS的阈值

简介: 跟着Nature Genetics学数据分析:使用GEC软件计算有效位点数从而确定GWAS的阈值

论文

Super-pangenome analyses highlight genomic diversity and structural variation across wild and cultivated tomato species

https://www.nature.com/articles/s41588-023-01340-y

西红柿NG_superPan正文.pdf

数据分析的代码

https://github.com/HongboDoll/TomatoSuperPanGenome

论文里提供了绝大部分的数据处理代码,很好的学习材料,今天的推文我们学习一下论文中确定GWAS分析阈值的方法,论文里写到

The genome-wide significance thresholds (7.58 × 10−7) were determined using a uniform threshold of 1/n, where n is the effective number of independent SNPs and SVs calculated using the Genetic type 1 Error Calculator (v.0.2)

但是没有在论文里找到对应的这部分代码

在另外一篇黄瓜的Nature Communications的论文里也提到了这个方法,论文是

Graph-based pan-genome reveals structural and sequence variations related to agronomic traits and domestication in cucumber

方法部分写到

The genome-wide significance threshold (3.46 × 10−5) was
determined by a uniform threshold of 1/n, where n was the effective number of independent SVs calculated using Genetic type 1 Error Calculator (v0.2)

GEC软件的主页

http://pmglab.top/gec/#/download

帮助手册

http://pmglab.top/gec/data/archive/v0.2/UserManualV0.2.pdf

软件对应的论文

Evaluating the effective numbers of independent tests and significant p-value thresholds in commercial genotyping arrays and public imputation reference datasets

https://link.springer.com/article/10.1007/s00439-011-1118-2

下载下来直接解压就能用

首先使用plink把vcf文件转换成bed文件

/biotools/plink19/plink --vcf input.vcf --make-bed --out abc

abc是输出文件的前缀,我把这些文件输出到了outputfolder这个文件夹下

计算有效位点数

java -jar -Xmx8g ~/biotools/GEC/gec/gec.jar --effect-number --plink-binary outputfolder/abc --genome --out test1

生成了一个文件 test1.sum,里面的信息有

image.png

能得到结果,不太确定整个过程有没有错误,如果有懂行的大佬欢迎留言指教!

欢迎大家关注我的公众号

小明的数据分析笔记本

小明的数据分析笔记本 公众号 主要分享:1、R语言和python做数据分析和数据可视化的简单小例子;2、园艺植物相关转录组学、基因组学、群体遗传学文献阅读笔记;3、生物信息学入门学习资料及自己的学习笔记!

image.png

相关文章
|
机器学习/深度学习 监控 数据可视化
MATLAB应用指导:利用MATLAB进行内部局域网管理软件的数据分析和可视化
在今天的数字化时代,内部局域网管理软件在各种组织中起着至关重要的作用。这些软件可以监控网络活动,收集大量的数据,但数据的真正价值在于如何分析和可视化它。在本文中,我们将探讨如何使用MATLAB进行内部局域网管理软件的数据分析和可视化,以帮助您更好地理解和优化您的网络。
267 0
|
4月前
|
数据可视化 数据挖掘 Java
深度挖掘数据,智慧决策,VeryReport报表软件引领数据分析新潮流
深度挖掘数据,智慧决策,VeryReport报表软件引领数据分析新潮流
|
6月前
|
数据采集 监控 网络协议
利用Perl编写局域网监控软件的数据分析与报告生成模块
使用Perl编写局域网监控软件,包括数据采集(如获取主机列表)、数据分析(统计主机在线时长)和报告生成。代码示例展示了如何利用Net::ARP模块收集信息、定时统计在线时间并生成报告。此外,通过LWP::UserAgent模块,可将监控数据自动提交至网站,便于管理员远程监控网络状态,保障网络安全。
99 0
|
6月前
|
人工智能 前端开发 数据挖掘
Arm 发布 Neoverse 新品:数据分析性能提升 196%,奠定未来计算及 AI 的基石
北京时间 2 月 22 日,半导体巨头 Arm 更新了 Arm® Neoverse™ 产品路线图,宣布推出两款基于全新第三代 Neoverse IP 构建的全新计算子系统(CSS):Arm Neoverse CSS V3 和 Arm Neoverse CSS N3。
|
6月前
|
监控 数据可视化 数据挖掘
热门的数据分析软件推荐
热门的数据分析软件推荐
|
6月前
|
算法 数据挖掘 BI
SPSS数据分析软件的安装与介绍(附网盘链接)
SPSS数据分析软件的安装与介绍(附网盘链接)
878 0
|
Python
python 股票数据分析、绘制K线图、价格走势图、收益率计算 完整代码+数据 可直接运行
python 股票数据分析、绘制K线图、价格走势图、收益率计算 完整代码+数据 可直接运行
207 0
python 股票数据分析、绘制K线图、价格走势图、收益率计算 完整代码+数据 可直接运行
|
安全 数据挖掘
专题五数据分析与多项式计算-2
专题五数据分析与多项式计算
76 0
|
数据挖掘
专题五数据分析与多项式计算-1
专题五数据分析与多项式计算
50 0
|
缓存 弹性计算 分布式计算
阿里云适合建网、web应用、数据分析和计算、数据库系统的云服务器价格参考
阿里云服务器新客专享,新用户完成账号实名认证,享受优惠价格购买计算型、通用型、内存型云服务器爆款配置特价优惠,限1-2台,这些云服务器主要适合搭建网站、web应用、数据分析和计算、数据库系统等中小类型和规模的企业级应用。
413 1
阿里云适合建网、web应用、数据分析和计算、数据库系统的云服务器价格参考