AGS无服务化分析基因数据 - mutect2 肿瘤样本分析

简介: 通过调用AGS的远程任务,可以完成一序列的基因数据的二级分析,不需要申请和持有云计算资源,就可以完成对海量数据的批量处理,目前可以支持人类全基因组,外显子,基因比对,宏基因组比对,Somatic胚系变异发现等业务场景的加速和低成本处理。通过AGS调用mutect2任务来检测体细胞短突变, 短突变包括单核苷酸(SNV)以及插入和缺失(Indel)的改变。本文介绍如何通过AGS分析肿瘤样本。

AGS无服务化分析基因数据

通过调用AGS的远程任务,可以完成一序列的基因数据的二级分析,不需要申请和持有云计算资源,就可以完成对海量数据的批量处理,目前可以支持人类全基因组,外显子,基因比对,宏基因组比对,Somatic胚系变异发现等业务场景的加速和低成本处理。详细使用方式参考AGS服务

image.png

ags remote run --help
run aliyun custom process

Usage:
  ags remote run [flags]
  ags remote run [command]

Available Commands:
  hc          HaplotypeCaller job for haplotypes
  mapping     mapping job, it is equal to a combination of "bwa aln, bwa sampe, samtools sort, gatk MarkDuplicates "
  mutect2     mutect2 job for somatic variant
  rna-mapping mapping job for virus
  wgs         end to end job of mapping and HaplotypeCaller for WGS, WES and so on

通过AGS分析肿瘤样本

通过AGS调用mutect2任务来检测体细胞短突变, 短突变包括单核苷酸(SNV)以及插入和缺失(Indel)的改变。本文介绍如何通过AGS分析肿瘤样本。

背景信息

AGS mutect2 支持两种模式的典型场景:

  • 肿瘤加正常样本模式:肿瘤样本在分析过程跳过正常人的胚系变异。
  • 肿瘤模式:对单个肿瘤样本的比对数据进行分析。

mutect2的体系变异检测是保持了和GATK4.1.3一致的变异检测方式,但提供了30-80倍的加速。针对90Gbase的比对数据,10分钟内可以完成变异检测。

在肿瘤加正常样本模式下分析样本

以给定匹配的正常样本作为基准,Mutect2仅检测体细胞变异。 mutect2会根据提供的证据(例如在匹配的正常人中),实现跳过在胚系中明显存在的变异的逻辑,以避免在胚系事件上花费计算资源。

用法:

Usage:

ags remote run mutect2 \
--region cn-shenzhen # region of oss, e.g. cn-shenzhen, cn-beijing and etc\
--bucket my-test-shenzhen # Bucket name\
--input-bam-tumor bam/HKU2_160660.bam #Tumor sample bam file\
--input-bam-normal  bam/MGISEQ_NA12878_RG_HG38.bam  # Optional normal sample bam \
--bed bed/performance.blocks.exp.bed # Optional target bed \
--output-vcf vcf/HKU2_160660.vcf  # Output filename\
--service "s" #SLA: [n:normal|s:silver|g:gold|p:platinum]\
--reference [hg19|hg38|<reference path on OSS>] # hg19: it is hs37d5 version, GRCh37/hg19 include decoy contig, no support for UCSC hg19. hg38: GRCh38/hg38 include decoy

e.g:
ags remote run mutect2 \
--region cn-shenzhen \
--bucket my-test-shenzhen \
--input-bam-tumor bam/HKU2_160660.bam \
--input-bam-normal  bam/MGISEQ_NA12878_RG.bam \
--output-vcf vcf/HKU2_160660.vcf \
--service "s"  \
--reference hg19
INFO[0001] {"JobName":"mutect2-gpu-vp7d9"}
INFO[0001] Job submit succeed

ags remote get mutect2-gpu-vp7d9 --show
+-------------------+------------------+---------+-------------------------------+---------------+-------------+-------------+
|     JOB NAME      |  JOB NAMESPACE   | STATUS  |          CREATE TIME          |   DURATION    | TOTAL READS | TOTAL BASES |
+-------------------+------------------+---------+-------------------------------+---------------+-------------+-------------+
| mutect2-gpu-vp7d9 | XXXXXXXXX | Running | 2020-04-10 16:02:39 +0800 CST | 36.311883677s |           0 |           0 |
+-------------------+------------------+---------+-------------------------------+---------------+-------------+-------------+


+--------------------------+---------------------------+
|        JOB DETAIL        |                           |
+--------------------------+---------------------------+
| mutect2_reference_group  |                           |
| mutect2_oss_region       | cn-shenzhen               |
| mutect2_bucket_name      | my-test-shenzhen          |
| mutect2_output_vcf_name  | vcf/HKU2_160660.vcf       |
| mutect2_reference_file   | hg19                      |
| mutect2_input_bam_tumor  | bam/HKU2_160660.bam       |
| mutect2_input_bam_normal | bam/MGISEQ_NA12878_RG.bam |
| mutect2_input_bed        |                           |
| mutect2_service          | s                         |
+--------------------------+---------------------------+

在单独肿瘤样本模式下分析样本

此模式对单一类型的样本(例如肿瘤或正常样本)进行分析。

用法

Usage:

ags remote run mutect2 \
--region cn-shenzhen # region of oss, e.g. cn-shenzhen, cn-beijing and etc\
--bucket my-test-shenzhen # Bucket name\
--input-bam-tumor bam/HKU2_160660.bam #Tumor/Normal sample bam file\
--output-vcf vcf/HKU2_160660.vcf  # Output filename\
--service "s" #SLA: [n:normal|s:silver|g:gold|p:platinum]\
--reference [hg19|hg38|<reference path on OSS>] # hg19: it is hs37d5 version, GRCh37/hg19 include decoy contig, no support for UCSC hg19. hg38: GRCh38/hg38 include decoy

e.g.

ags remote run mutect2 \
--region cn-shenzhen \
--bucket my-test-shenzhen \
--input-bam-tumor bam/HKU2_160660.bam \
--output-vcf vcf/HKU2_160660.all.vcf \
--service "s"  \
--reference hg19
INFO[0001] {"JobName":"mutect2-gpu-6tc8s"}
INFO[0001] Job submit succeed

ags remote get mutect2-gpu-6tc8s --show
+-------------------+------------------+-----------+-------------------------------+----------+-------------------------------+-------------+-------------+
|     JOB NAME      |  JOB NAMESPACE   |  STATUS   |          CREATE TIME          | DURATION |          FINISH TIME          | TOTAL READS | TOTAL BASES |
+-------------------+------------------+-----------+-------------------------------+----------+-------------------------------+-------------+-------------+
| mutect2-gpu-6tc8s | XXXXXXXXXX | Succeeded | 2020-04-10 15:51:59 +0800 CST | 4m12s    | 2020-04-10 15:56:11 +0800 CST |           0 |           0 |
+-------------------+------------------+-----------+-------------------------------+----------+-------------------------------+-------------+-------------+


+--------------------------+-------------------------+
|        JOB DETAIL        |                         |
+--------------------------+-------------------------+
| mutect2_oss_region       | cn-shenzhen             |
| mutect2_input_bam_tumor  | bam/HKU2_160660.bam     |
| mutect2_input_bam_normal |                         |
| mutect2_input_bed        |                         |
| mutect2_output_vcf_name  | vcf/HKU2_160660.all.vcf |
| mutect2_bucket_name      | my-test-shenzhen        |
| mutect2_reference_file   | hg19                    |
| mutect2_reference_group  |                         |
| mutect2_service          | s                       |
+--------------------------+-------------------------+
相关实践学习
在云上部署ChatGLM2-6B大模型(GPU版)
ChatGLM2-6B是由智谱AI及清华KEG实验室于2023年6月发布的中英双语对话开源大模型。通过本实验,可以学习如何配置AIGC开发环境,如何部署ChatGLM2-6B大模型。
目录
相关文章
|
监控 物联网 视频直播
流量卡类型及其适用场景
不同流量卡的使用场景可以根据其特点、套餐内容、价格以及用户的具体需求来划分。以下是一些常见的流量卡类型及其适用场景:
|
4天前
|
人工智能 弹性计算 前端开发
2026年阿里云618活动期间有什么优惠?云服务器、AI产品和大模型、优惠券活动介绍
阿里云2026年618活动已全面开启,涵盖云服务器、AI产品及优惠券等。云服务器方面,轻量应用服务器2核2G低至38元/年,2核4G仅9.9元/月;经济型e实例99元/年,u1实例199元/年,u2i实例3折起,c9i/g9i服务器6.4折起。AI产品方面:QoderWork CN首月0元,Qwen3.7限时5折,秒悟新注册送1万积分,HappyHorse视频生成8折,OPC创新助力计划至高补贴100万Token。大模型方面,百炼平台享1亿+免费tokens,AI通用型节省计划最高5.3折。叠加AI加速季权益礼包(个人360元/企业1728元)及百炼先用后返最高200元。
|
2月前
|
机器学习/深度学习 存储 大数据
阿里云2026优惠券全攻略:学生300元无门槛+企业出海补贴+迁云算力补贴详解
2026年,阿里云推出多层次优惠券体系,涵盖学生、企业迁移及出海三大场景。学生可领300元无门槛券,降低技术学习成本,适用于搭建网站、开发测试等。企业迁移享5亿算力补贴,通过消费凭证申请,降低迁移门槛,助力数字化转型。出海企业获最高10万元抵扣金及全球基础设施、合规支持等生态赋能。用户应根据身份与需求,优先完成认证并规划使用策略,以最大化利用优惠券价值,实现成本优化与业务增长。
|
6月前
|
边缘计算 安全 前端开发
【内有限时惊喜活动】阿里云边缘安全加速ESA中国站免费版站点套餐重磅上线!
阿里云ESA中国站免费版上线!真·无限流量、永久免费、无需信用卡,专为开发者、学生及初创团队打造。支持全球加速、基础安全防护、边缘函数与Pages静态托管,一键部署博客、文档与Demo。
|
移动开发 缓存 JavaScript
微信h5跳转小程序wx-open-launch-weapp开放标签不显示(已解决)
微信h5跳转小程序wx-open-launch-weapp开放标签不显示(已解决)
3522 0
微信h5跳转小程序wx-open-launch-weapp开放标签不显示(已解决)
|
4月前
|
云安全 存储 人工智能
藏太深了!阿里云域名优惠口令,终于找到了,亲测有效!
阿里云2026年最新域名优惠口令来了!.com续费用“com批量注册更享优惠”,.cn注册用“互联网上的中国标识”,续费用“cn注册多个价格更优”,实测立减5-10元。支持注册、转入、续费,仅限PC/APP端使用,限时限量,速领速用!
|
传感器 人工智能 自然语言处理
比亚迪座舱接入通义大模型,未来将联合打造更多AI智能座舱场景
比亚迪与阿里云深度合作,将通义大模型应用于智能座舱和营销服务。通过通义万相,腾势推出“AI壁纸”功能;借助通义星尘,实现“心理伴聊”等情感陪伴场景。阿里云Mobile-Agent智能体落地比亚迪座舱,支持复杂语音操作,如查询淘宝物流、订火车票等。该方案基于全视觉解决技术,具有强泛化能力,未来双方将持续拓展更多AI应用。
1525 9
|
存储
操作系统第五章_03 假脱机技术 (SPOOLing技术)
操作系统第五章_03 假脱机技术 (SPOOLing技术)
1642 0
操作系统第五章_03 假脱机技术 (SPOOLing技术)
|
存储 图形学
手机广告常见的10bit是什么?YUV444、YUV422、YUV420、YUV411是什么?
10bit色深相较于8bit,能提供更多的灰阶和显色数,使色彩过渡更加平滑,减少色带现象。YUV444、YUV422、YUV420、YUV411是不同的采样方式,通过减少UV分量来节省空间。YUV420和YUV411虽都是每4个Y分量用1组UV分量,但YUV420在垂直方向上交替存储U和V,而YUV411仅在水平方向上进行4:1抽样。
|
缓存 数据可视化 搜索推荐
HarmonyOS 4.0 实况窗上线!支付宝实现医疗场景智能提醒
HarmonyOS 4.0 实况窗上线!支付宝实现医疗场景智能提醒
1177 4

热门文章

最新文章