Sentieon|应用教程:利用Sentieon Python API引擎为自研算法加速

简介: Sentieon|应用教程:利用Sentieon Python API引擎为自研算法加速

背景

Sentieon套装中所有模块的速度都远超对应开源软件的数倍至数十倍,用户在使用这些模块的同时,有时也希望Sentieon团队可以帮助加速自己开发的定制化软件。为了帮助这些用户能在自研软件上享受到Sentieon模块的速度,我们开发了Python API系统, 满足用户二次开发,自主加速的需求。

API介绍

Sentieon Python API本质上是一套沟通系统,连接了用户的数据分析脚本与Sentieon的高速引擎,在加速的同时也提升了脚本的可读性与可维护性。

Sentieon的数据处理引擎是Sentieon多个模块的核心,可以高速分析BAM/CRAM和FASTA格式的数据文件。引擎同时支持single-pass以及multithreaded execution这两种数据流方式。其中Multithreaded数据流速度较快,也相对比较复杂,会将基因组分拆为默认长度1Gb的片段(Fragment),Sentieon引擎会并行地在每个线程中独立处理单个片段;每个片段又会被分拆为默认长度1Kb的小片段(Step),引擎会线性的依次处理这些小片段。在此过程中,用户软件的数据处理逻辑将会得到高速执行。

实施案例

下面我们通过一个与美国圣朱迪儿童研究医院(St Jude Children’s Research Hospital)的CREST软件团队的合作案例展现Sentieon的加速效果。CREST (Clipping REveals Structure)是业内一款著名的检测癌症基因组结构变异的软件,主要通过断点(Breakpoints)作为线索来检测基因组中的结构变异。具体来说,CREST软件的流程中包括了soft-clip检测,组装,组装后比对,断点确认,结构变异确认等步骤。其中的组装与比对步骤主要依赖于第三方工具完成。CREST的优势是准确度较高,然而速度方面的缺陷同样明显,对于一个标准30x肿瘤全基因组配对样本来说,在20线程的工作站的处理时间长达24小时,很难满足用户的需求。

在了解到Sentieon Python API的功能之后,CREST团队使用这套系统重新实现了CREST的功能。在测试数据中,利用Sentieon加速版CREST达到了10倍的提速,结果与原版的CREST完全一致。在20线程的工作站中将绝大多数样本的处理时间降低到了1小时以内。

下面我们介绍另外两个应用加速案例。质量控制是NGS数据处理流程中的重要步骤,虽然逻辑比较简单,然而涉及到对于BAM/CRAM文件的大量读取工作,这些工具在速度,多线程并行,以及代码的可维护性上往往难以兼得。

Sentieon Python API可以将质控工具的算法逻辑与数据读取分开,同时提升速度与代码可读性。作为实施案例,我们利用Python API加速了Picard的CollectInsertSizeMetrics工具,快速统计insert size;另外我们也加速了GATK的CalculateTargetCoverge工具,快速统计目标区域的深度。用户也可参考此案例,加速自研的质控工具。

技术支持

Sentieon Python API可以让用户的脚本与Sentieon引擎沟通,高速并行读取BAM/CRAM/FASTA文件,提速10倍以上。用户可以利用这个平台进行二次开发,加速自研软件,我们非常愿意提供详尽的技术支持。

Sentieon软件介绍

Sentieon为完整的纯软件基因变异检测二级分析方案,其分析流程完全忠于BWA、GATK、MuTect2、STAR、Minimap2、Fgbio、picard等金标准的数学模型。在匹配开源流程分析结果的前提下,大幅提升WGS、WES、Panel、UMI、ctDNA、RNA等测序数据的分析效率和检出精度,并匹配目前全部第二代、三代测序平台。

Sentieon软件团队拥有丰富的软件开发及算法优化工程经验,致力于解决生物数据分析中的速度与准确度瓶颈,为来自于分子诊断、药物研发、临床医疗、人群队列、动植物等多个领域的合作伙伴提供高效精准的软件解决方案,共同推动基因技术的发展。

截至2023年3月份,Sentieon已经在全球范围内为1300+用户提供服务,被世界一级影响因子刊物如NEJM、Cell、Nature等广泛引用,引用次数超过700篇。此外,Sentieon连续数年摘得了Precision FDA、Dream Challenges等多个权威评比的桂冠,在业内获得广泛认可。


软件试用:https://www.insvast.com/sentieon

目录
相关文章
|
11天前
|
搜索推荐 数据挖掘 API
Suning商品详情API接口的开发应用与收益
在电商迅猛发展的时代,API接口技术成为连接不同系统的桥梁,为电商平台提供高效的数据交换能力。苏宁易购的商品详情API接口,为商家和开发者带来诸多便利和收益,包括商品信息获取、选品上架、竞品分析、个性化推荐、自动化管理和运营效率提升等方面,助力商家优化销售策略,提高用户体验,降低运营成本,增强市场竞争力,促进业务创新。
38 2
|
6天前
|
存储 搜索推荐 安全
介绍几个常用的电商API接口及其应用场景。(一篇文章全清楚)
电商API接口是电商平台高效运营的核心技术支撑,涵盖商品管理、订单管理、支付、客户管理、营销推广和数据分析六大模块。商品管理API实现商品信息的精准上传与动态调整;订单管理API确保订单全流程透明可控;支付API保障交易安全便捷;客户管理API通过数据分析提供个性化服务;营销推广API助力精准营销;数据分析API为决策提供数据支持。各API协同工作,推动电商行业创新发展,构建智能便捷的电商生态。
59 12
|
9天前
|
数据采集 JSON API
如何利用Python爬虫淘宝商品详情高级版(item_get_pro)API接口及返回值解析说明
本文介绍了如何利用Python爬虫技术调用淘宝商品详情高级版API接口(item_get_pro),获取商品的详细信息,包括标题、价格、销量等。文章涵盖了环境准备、API权限申请、请求构建和返回值解析等内容,强调了数据获取的合规性和安全性。
|
7天前
|
监控 供应链 搜索推荐
阿里妈妈商品详情API接口:开发、应用与收益的深度剖析
阿里妈妈是阿里巴巴旗下的数字营销平台,其商品详情API接口为开发者提供了获取淘宝、天猫等电商平台商品详细信息的工具。本文介绍了该接口的开发流程、应用场景及带来的收益,揭示了其在电商生态中的重要地位。
54 6
|
7天前
|
供应链 搜索推荐 API
1688APP原数据API接口的开发、应用与收益(一篇文章全明白)
1688作为全球知名的B2B电商平台,通过开放的原数据API接口,为开发者提供了丰富的数据资源,涵盖商品信息、交易数据、店铺信息、物流信息和用户信息等。本文将深入探讨1688 APP原数据API接口的开发、应用及其带来的商业收益,包括提升流量、优化库存管理、增强用户体验等方面。
44 6
|
7天前
|
机器学习/深度学习 人工智能 监控
API超越应用的时代,深入了解F5 API安全解决方案
API超越应用的时代,深入了解F5 API安全解决方案
20 3
|
10天前
|
供应链 搜索推荐 API
Walgreens商品详情API接口的开发应用与收益
在数字化时代,API成为连接不同系统和服务的桥梁。Walgreens通过开放其商品详情API接口,为开发者提供了丰富的数据源,支持商品搜索、个性化推荐、价格比较、库存管理等应用,创造了新的商业机会和收益模式。本文将深入探讨Walgreens商品详情API接口的开发应用及其多重收益。
30 5
|
9天前
|
监控 搜索推荐 API
京东商品详情API接口的开发、应用与收益探索
在数字化和互联网高速发展的时代,京东通过开放商品详情API接口,为开发者、企业和商家提供了丰富的数据源和创新空间。本文将探讨该API接口的开发背景、流程、应用场景及带来的多重收益,包括促进生态系统建设、提升数据利用效率和推动数字化转型等。
33 3
|
3天前
|
存储 搜索推荐 API
小红书笔记详情API接口的开发、应用与收益
小红书笔记详情API接口为开发者、企业和内容创作者提供了获取平台丰富资源的通道。通过该接口,用户可以提取笔记的详细信息(如标题、正文、标签等),并应用于市场调研、竞品分析、内容创作、电商推荐等多个领域。这不仅有助于提升品牌影响力和优化用户体验,还能挖掘商业机会,促进内容创新,增强用户互动与社群凝聚力。总之,小红书笔记详情API接口为企业和个人在社交媒体领域探索新增长点提供了重要工具。
23 0
|
6天前
|
JSON API 数据安全/隐私保护
淘宝商品详情API接口系列以及应用场景
淘宝商品详情API接口系列是淘宝开放平台提供的一系列编程接口,允许第三方开发者通过特定的协议和方式,与淘宝平台进行数据交互。这些接口涵盖了商品搜索、商品详情获取、订单管理、物流查询、支付结算等多个方面,为开发者提供了极大的灵活性和便利性。以下是对淘宝商品详情API接口系列的详细介绍