AGS无服务化分析基因数据 - mutect2 肿瘤样本分析

简介: 通过调用AGS的远程任务,可以完成一序列的基因数据的二级分析,不需要申请和持有云计算资源,就可以完成对海量数据的批量处理,目前可以支持人类全基因组,外显子,基因比对,宏基因组比对,Somatic胚系变异发现等业务场景的加速和低成本处理。通过AGS调用mutect2任务来检测体细胞短突变, 短突变包括单核苷酸(SNV)以及插入和缺失(Indel)的改变。本文介绍如何通过AGS分析肿瘤样本。

AGS无服务化分析基因数据

通过调用AGS的远程任务,可以完成一序列的基因数据的二级分析,不需要申请和持有云计算资源,就可以完成对海量数据的批量处理,目前可以支持人类全基因组,外显子,基因比对,宏基因组比对,Somatic胚系变异发现等业务场景的加速和低成本处理。详细使用方式参考AGS服务

image.png

ags remote run --help
run aliyun custom process

Usage:
  ags remote run [flags]
  ags remote run [command]

Available Commands:
  hc          HaplotypeCaller job for haplotypes
  mapping     mapping job, it is equal to a combination of "bwa aln, bwa sampe, samtools sort, gatk MarkDuplicates "
  mutect2     mutect2 job for somatic variant
  rna-mapping mapping job for virus
  wgs         end to end job of mapping and HaplotypeCaller for WGS, WES and so on

通过AGS分析肿瘤样本

通过AGS调用mutect2任务来检测体细胞短突变, 短突变包括单核苷酸(SNV)以及插入和缺失(Indel)的改变。本文介绍如何通过AGS分析肿瘤样本。

背景信息

AGS mutect2 支持两种模式的典型场景:

  • 肿瘤加正常样本模式:肿瘤样本在分析过程跳过正常人的胚系变异。
  • 肿瘤模式:对单个肿瘤样本的比对数据进行分析。

mutect2的体系变异检测是保持了和GATK4.1.3一致的变异检测方式,但提供了30-80倍的加速。针对90Gbase的比对数据,10分钟内可以完成变异检测。

在肿瘤加正常样本模式下分析样本

以给定匹配的正常样本作为基准,Mutect2仅检测体细胞变异。 mutect2会根据提供的证据(例如在匹配的正常人中),实现跳过在胚系中明显存在的变异的逻辑,以避免在胚系事件上花费计算资源。

用法:

Usage:

ags remote run mutect2 \
--region cn-shenzhen # region of oss, e.g. cn-shenzhen, cn-beijing and etc\
--bucket my-test-shenzhen # Bucket name\
--input-bam-tumor bam/HKU2_160660.bam #Tumor sample bam file\
--input-bam-normal  bam/MGISEQ_NA12878_RG_HG38.bam  # Optional normal sample bam \
--bed bed/performance.blocks.exp.bed # Optional target bed \
--output-vcf vcf/HKU2_160660.vcf  # Output filename\
--service "s" #SLA: [n:normal|s:silver|g:gold|p:platinum]\
--reference [hg19|hg38|<reference path on OSS>] # hg19: it is hs37d5 version, GRCh37/hg19 include decoy contig, no support for UCSC hg19. hg38: GRCh38/hg38 include decoy

e.g:
ags remote run mutect2 \
--region cn-shenzhen \
--bucket my-test-shenzhen \
--input-bam-tumor bam/HKU2_160660.bam \
--input-bam-normal  bam/MGISEQ_NA12878_RG.bam \
--output-vcf vcf/HKU2_160660.vcf \
--service "s"  \
--reference hg19
INFO[0001] {"JobName":"mutect2-gpu-vp7d9"}
INFO[0001] Job submit succeed

ags remote get mutect2-gpu-vp7d9 --show
+-------------------+------------------+---------+-------------------------------+---------------+-------------+-------------+
|     JOB NAME      |  JOB NAMESPACE   | STATUS  |          CREATE TIME          |   DURATION    | TOTAL READS | TOTAL BASES |
+-------------------+------------------+---------+-------------------------------+---------------+-------------+-------------+
| mutect2-gpu-vp7d9 | XXXXXXXXX | Running | 2020-04-10 16:02:39 +0800 CST | 36.311883677s |           0 |           0 |
+-------------------+------------------+---------+-------------------------------+---------------+-------------+-------------+


+--------------------------+---------------------------+
|        JOB DETAIL        |                           |
+--------------------------+---------------------------+
| mutect2_reference_group  |                           |
| mutect2_oss_region       | cn-shenzhen               |
| mutect2_bucket_name      | my-test-shenzhen          |
| mutect2_output_vcf_name  | vcf/HKU2_160660.vcf       |
| mutect2_reference_file   | hg19                      |
| mutect2_input_bam_tumor  | bam/HKU2_160660.bam       |
| mutect2_input_bam_normal | bam/MGISEQ_NA12878_RG.bam |
| mutect2_input_bed        |                           |
| mutect2_service          | s                         |
+--------------------------+---------------------------+

在单独肿瘤样本模式下分析样本

此模式对单一类型的样本(例如肿瘤或正常样本)进行分析。

用法

Usage:

ags remote run mutect2 \
--region cn-shenzhen # region of oss, e.g. cn-shenzhen, cn-beijing and etc\
--bucket my-test-shenzhen # Bucket name\
--input-bam-tumor bam/HKU2_160660.bam #Tumor/Normal sample bam file\
--output-vcf vcf/HKU2_160660.vcf  # Output filename\
--service "s" #SLA: [n:normal|s:silver|g:gold|p:platinum]\
--reference [hg19|hg38|<reference path on OSS>] # hg19: it is hs37d5 version, GRCh37/hg19 include decoy contig, no support for UCSC hg19. hg38: GRCh38/hg38 include decoy

e.g.

ags remote run mutect2 \
--region cn-shenzhen \
--bucket my-test-shenzhen \
--input-bam-tumor bam/HKU2_160660.bam \
--output-vcf vcf/HKU2_160660.all.vcf \
--service "s"  \
--reference hg19
INFO[0001] {"JobName":"mutect2-gpu-6tc8s"}
INFO[0001] Job submit succeed

ags remote get mutect2-gpu-6tc8s --show
+-------------------+------------------+-----------+-------------------------------+----------+-------------------------------+-------------+-------------+
|     JOB NAME      |  JOB NAMESPACE   |  STATUS   |          CREATE TIME          | DURATION |          FINISH TIME          | TOTAL READS | TOTAL BASES |
+-------------------+------------------+-----------+-------------------------------+----------+-------------------------------+-------------+-------------+
| mutect2-gpu-6tc8s | XXXXXXXXXX | Succeeded | 2020-04-10 15:51:59 +0800 CST | 4m12s    | 2020-04-10 15:56:11 +0800 CST |           0 |           0 |
+-------------------+------------------+-----------+-------------------------------+----------+-------------------------------+-------------+-------------+


+--------------------------+-------------------------+
|        JOB DETAIL        |                         |
+--------------------------+-------------------------+
| mutect2_oss_region       | cn-shenzhen             |
| mutect2_input_bam_tumor  | bam/HKU2_160660.bam     |
| mutect2_input_bam_normal |                         |
| mutect2_input_bed        |                         |
| mutect2_output_vcf_name  | vcf/HKU2_160660.all.vcf |
| mutect2_bucket_name      | my-test-shenzhen        |
| mutect2_reference_file   | hg19                    |
| mutect2_reference_group  |                         |
| mutect2_service          | s                       |
+--------------------------+-------------------------+
相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
目录
相关文章
|
2月前
|
数据采集 数据挖掘 数据库
单细胞分析 | 使用 Monocle 3 进行发育轨迹分析
单细胞分析 | 使用 Monocle 3 进行发育轨迹分析
208 0
单细胞分析 | 使用 Monocle 3 进行发育轨迹分析
|
7月前
|
数据可视化 数据挖掘
singleCellNet(代码开源)|单细胞层面对细胞分类进行评估,褒贬不一,有胜于无
`singleCellNet`是一款用于单细胞数据分析的R包,主要功能是进行细胞分类评估。它支持多物种和多分组分析,并提供了一个名为`CellNet`的类似工具的示例数据集。用户可以通过安装R包并下载测试数据来运行demo。在demo中,首先加载查询和测试数据,然后训练分类器,接着进行评估,包括查看准确率和召回率的曲线图、分类热图和比例堆积图等。此外,`singleCellNet`还支持跨物种评估,将人类基因映射到小鼠直系同源物进行分析。整体而言,`singleCellNet`是一个用于单细胞分类评估的综合工具,适用于相关领域的研究。
102 6
|
7月前
|
存储 移动开发 算法
SPSS用KMEANS(K均值)、两阶段聚类、RFM模型在P2P网络金融研究借款人、出款人行为数据规律
SPSS用KMEANS(K均值)、两阶段聚类、RFM模型在P2P网络金融研究借款人、出款人行为数据规律
|
7月前
|
机器学习/深度学习 传感器 自然语言处理
时间序列预测的零样本学习是未来还是炒作:TimeGPT和TiDE的综合比较
最近时间序列预测预测领域的最新进展受到了各个领域(包括文本、图像和语音)成功开发基础模型的影响,例如文本(如ChatGPT)、文本到图像(如Midjourney)和文本到语音(如Eleven Labs)。这些模型的广泛采用导致了像TimeGPT[1]这样的模型的出现,这些模型利用了类似于它们在文本、图像和语音方面获得成功的方法和架构。
133 1
|
7月前
|
机器学习/深度学习
工具变量法(两阶段最小二乘法2SLS)线性模型分析人均食品消费时间序列数据和回归诊断(上)
工具变量法(两阶段最小二乘法2SLS)线性模型分析人均食品消费时间序列数据和回归诊断
|
7月前
|
数据可视化
数量生态学冗余分析(RDA)分析植物多样性物种数据结果可视化|数据分享
数量生态学冗余分析(RDA)分析植物多样性物种数据结果可视化|数据分享
|
7月前
工具变量法(两阶段最小二乘法2SLS)线性模型分析人均食品消费时间序列数据和回归诊断2
工具变量法(两阶段最小二乘法2SLS)线性模型分析人均食品消费时间序列数据和回归诊断
|
7月前
|
机器学习/深度学习 前端开发 数据挖掘
R语言计量经济学:工具变量法(两阶段最小二乘法2SLS)线性模型分析人均食品消费时间序列数据和回归诊断
R语言计量经济学:工具变量法(两阶段最小二乘法2SLS)线性模型分析人均食品消费时间序列数据和回归诊断
|
数据可视化
WGCNA 简明指南|2. 模块与性状关联分析并识别重要基因
WGCNA 简明指南|2. 模块与性状关联分析并识别重要基因
1348 0
WGCNA 简明指南|2. 模块与性状关联分析并识别重要基因
|
存储 Python
候选基因如何分析?
候选基因如何分析?