微生物组(16S rRNA)数据分析套件PMS尝鲜

简介: 前几日宏基因组公号上推送了《iMeta:青岛大学苏晓泉组开发跨平台可交互的微生物组分析套件PMS》一文,但软件中示例文件貌似是单端数据,于是想着拿手里一批已发表过的双端测序16S数据集尝试一番。

fca05c1aafad94d5d91f58bc478b561.png

准备

代码Tutorial:

Github:https://github.com/qdu-bioinfo/parallel-meta-suite

Gittee:https://gitee.com/qdu-bioinfo/parallel-meta-suite

视频Tutorial:

Bilibili:https://www.bilibili.com/video/BV12F411s7uM/

Youtube:https://youtu.be/bSdrUSpzNDg

  • 一台服务器/Win WSL (配置RAM 8GB/CPU 4+cores)

安装PMS

wget http://bioinfo.single-cell.cn/Released_Software/parallel-meta/3.7/parallel-meta-suite-3.7-src.tar.gz
tar -xzvf parallel-meta-suite.tar.gz
cd  parallel-meta-suite.tar.gz
source install.sh

如果你用的Xshell,这里安装过程中会提醒你安装Xmanger,官网下载即可,个人版可以免费一个月,然后登录服务器时候在属性里点击隧道-> 连接即可,然后等shell脚本自动安装完就行了。

8292122c42cb8565caa7e04e325b91e.png

Xmanger连接

使用

fd83a06e412987bc3991ba763152770.png

PMS流程框架

安装完目录结构如下所示,

66b3224d6285e69a1bdba312ce9d27d.png

example文件下有示例文件,执行文件在bin目录下。

4d5164779f7cbdbbd1ca48be2adbe94.png

我们只需要准备三个文件

  1. meta.txt :包含每个样品的meta信息,最基本的分组信息,如果有其他指标的话可以添加,我这里有12个样品,各6个生物学重复。

c54dc73b557fa15b26ff9776cad5430.png

  1. seqs.list :记录这些样品序列的相对路径
  2. bb0616fa2218d07428bbe7f7041bfa6.png
  3. seqs文件夹:记录每个样品测序fastq序列,就是我们最原始的未拆分的下机序列。

a63ca8a75b4bf9261c33d9c7b37767b.png

OK,这三个文件准备好之后,我们只需要一条命名即可运行

PM-pipeline -i seqs.list -m meta.txt -o out_dir

运行之前我们先PM-pipeline -h一下了解还有哪些可用的参数:

  • -D:  选择数据库,默认为G(GreenGenes-13-8 16S rRNA 97%level), S (SLIVA 16SrRNA数据库), O (Oral_Core 16S rRNA),E(SLIVA 18S rRNA),  T(ITS ITS1), C (GreenGenes-13-8 16S rRNA 99%level)
  • -M: 测序类型T(shotgun)或者F(rRNA)
  • -r: rRNA拷贝数教程,默认T
  • -k:测序格式检查 默认F
  • -f:功能分析(预测),默认T
  • -v:ASV去噪,默认T
  • -c: 嵌合体去除 默认T
  • -d: 序列比对阈值(0~1直接)使用ASV时候默认0.99
  • -L: 分类水平(1-6:门-种)
  • -w: 分类聚类类型: 0 加权 1非加权 2都有
  • -F: 功能分析水平(指定KEGG LEVEL 1,2,3或者4(KO号))
  • -s:测序数量标准化深度
  • -R: 稀释曲线
  • -E: 双端数据 T, 默认F
  • -G: 网络分析边(相关性)的筛选阈值:默认0.5

接下来我们选择有用的参数运行命令

nohup PM-pipeline -i seqs.list -m meta.txt  -t 10 -R -E T -D S -o out_dir &

我设置10线程,大概40min作用,目录下生产了out_dir文件

5846a329a66644e6b81686f868e0cf9.png

目录传输到本地,index.html文件方便查询我们的结果。

9327e5eb3a5a0b40a6ce4f8a6d6be91.png

查看其中的一些结果,物种与功能的Alpha、Beta、群落组成,随机森林,网络分析等等基本都一键生成了,仔细观察结果,之前文章中用的是老一套97%OTU聚类方法,现在换成了ASV算法得到结果基本一致,对于属水平的鉴定也似乎精准了不少。

89aa8df6d2814dd6e32b491eb5d5e16.png

感慨:该流程化套件真的降低了我们数据分析的门槛,以后拿到数据后可以直接一键跑个流程根据结果初步挖掘有用信息,大大提高了我们的科研效率,曾经也上游shell,下游R写了流程化的脚本,现在看来这个用起来更便捷些,没必要重复造轮子了(这里reaspect开发人员), 针对些重要结果个性化分析出图就行了~~

另外,想起之前也介绍过一个16s下游流程化分析可视化的R包Microeco也值得我们学习:使用Microeco包轻松分析你的16S扩增子数据

相关文章
|
安全 搜索推荐 数据可视化
|
3月前
|
机器学习/深度学习 监控 安全
通过 ML 语言,思考公司如何监控员工电脑
在现代企业管理中,监控员工电脑使用情况至关重要,需确保工作效率与信息安全,同时也应尊重员工隐私。机器学习(ML)提供了一种新思路,通过分析数据模式监控员工行为,如访问网站和软件使用情况,实现更智能化的管理。然而,企业需遵守相关法规,并透明化监控目的,以确保合理性与合法性,实现双赢。
41 1
|
2月前
|
人工智能
给RAG系统做一次全面体检,亚马逊开源RAGChecker诊断工具
【9月更文挑战第12天】近年来,检索增强生成(RAG)系统因能有效利用外部知识而备受关注,但其评估仍具挑战性。为此,亚马逊AWS AI和上海交大的研究团队提出了RagChecker,这是一种细粒度评估框架,通过主张级别蕴涵检查来诊断RAG系统的检索和生成模块。RagChecker包含整体、诊断检索器和诊断生成器指标,全面评估系统性能。研究表明,RagChecker与人类判断相关性更高,并揭示了RAG架构设计的关键模式。尽管如此,该方法在计算资源和系统可解释性方面仍有局限。
60 3
|
4月前
|
数据采集 监控 数据挖掘
公司电脑监控软件中的SPSS统计分析
**使用SPSS分析员工监控数据**:公司借助电脑监控软件收集员工的工作数据,如上网记录和应用使用,然后通过SPSS进行统计分析以洞察工作习惯和效率。数据预处理后,利用SPSS脚本进行分析。自动化脚本定期将数据提交至内部网站,提升管理效率并为决策提供支持。
50 3
|
6月前
|
监控 数据可视化 时序数据库
打造高逼格、可视化的监控系统平台
打造高逼格、可视化的监控系统平台
43 1
|
6月前
|
监控 数据可视化 数据挖掘
热门的数据分析软件推荐
热门的数据分析软件推荐
|
机器学习/深度学习 人工智能 分布式计算
基于阿里云机器学习平台PAI搭建投放系统
移动互联网APP产品在面对新用户获取环节,普遍选择市场推广模式。在推广过程中,为了保证用户在app下载、app安装、app激活到app活跃的高转化率,需要实时监控各推广的质量。较为理想状态是投入产出比为:大于等于1。
385 0
基于阿里云机器学习平台PAI搭建投放系统
|
机器学习/深度学习 人工智能 算法
微软推人人可用的机器学习,打通windows应用程序任督二脉,惠及5000万开发者
微软「Build开发者大会」首次线上开幕,CEO Nadella对开发者倾诉衷肠,微软此次推出了WhiteNoise等多个机器学习工具包,让你的机器学习模型更上一层楼,Project Reunion一统Windows应用程序开发!更有量子计算平台预览版,HoloLens、Office套件等强力升级更新。
229 0
微软推人人可用的机器学习,打通windows应用程序任督二脉,惠及5000万开发者
|
安全 BI 数据安全/隐私保护
【视频特辑】提效神器!如何用Quick BI高效配置员工的用数权限
随着企业数字化进程逐步加速,企业所产生和积累的数据资源日益增多。 每当员工的用数权限发生变动,管理员都需要进行复杂繁琐的重复性配置流程,不仅耗时耗力还容易出错。 如何能便捷地对员工用数权限进行高效管理?试试Quick BI的角色权限管理功能吧!
299 0
【视频特辑】提效神器!如何用Quick BI高效配置员工的用数权限