带你读《生命科学行业云上解决方案及最佳实践》——中山大学医学院,云上 HPC 加快新冠致 病症因素研究进程

本文涉及的产品
云服务器 ECS,每月免费额度200元 3个月
云服务器ECS,u1 2核4GB 1个月
简介: 带你读《生命科学行业云上解决方案及最佳实践》——中山大学医学院,云上 HPC 加快新冠致 病症因素研究进程

1 客户介绍

在国内疫情肆虐之际,中山大学医学院通过与多家医院、疾控中心等合作,计划获取超过千名武汉市新冠患者的核酸样本,以及部分病人的全病程数据,希望通过基因组测序及测序数据分析,阐述冠状病毒的起源、进化和致重症机制。


中山大学医学院使用宏转录组的方法,期望从原始样本中挖掘得到所有关键的遗传信息。科学家们通过分析这些遗传信息重现病原体感染、宿主免疫和机体内环境相互作用的动态过程,寻找导致机体重症的关键因素。此外,科学家会将分析后的临床信息、病毒信息、基因组信息和实验结果数据汇总,构建新冠感染相关大数据,帮助研究病毒起源,也方便后续研究。


2 业务痛点

在研究过程中,科学家首先需要通过高通量基因测序平台,对原始样本进行测序,获得样本中包括病毒、细菌和宿主的完整遗传信息。遗传信息的拼装和比对需要高性能计算进行处理,海量的数据更是需要大规模算力。


本次实验处理的病例超过 1000 人,一般病例至少采集两份数据,单份数据就有 2~3G,部分病例为了采集全病程数据还采样数十次,还要再加上对照组信息。同时,中山大学的科学家还需要下载美国国家生物信息中心 NCBI(National Center for Biotechnology Information)中的约 8000 个样品进行比对,其产生的数据之海量可想而知。


3 解决方案和价值

通过阿里云弹性高性能计算(E-HPC)一键部署 HPC 集群环境,根据需求动态增减集群节点,免去了研究人员们针对服务器的管理和维护,不需要在运维上耗费过多精力,只需专注在研究上。

image.png

同时,阿里云弹性高性能计算(E-HPC)团队协助中山大学使用阿里云计算服务进行生信科学计算,提供 104 核处理器,相比线下服务器,数据组装、比对性能提升 25% 以上。


在性能与资源的双重支持下,原本每个病例的测序结果需要 12 个小时左右的分析时间,在阿里云上缩减到了 2 个小时。原本需要 1 年的运算量缩减到了约 2 个月时间,大大提高了工作效率,加快了研究进程,也为抗疫赢得了时间。


结束语

生命科学行业目前迎来巨大的发展机遇,云上 HPC 为生命科学行业带来新途径。同时 AI 在分子动力学等领域也极大地提升模拟速度,如AlphaFold2。AI for Science 正在迎来巨大的发展机遇,促进行业发展。云计算可以为生命科学行业提供安全、可靠、高效的平台,将企业从计算资源管理和运维中释放出来,进一步推动行业的技术发展和效率提升。生命科学行业上云是未来必然的发展趋势,相信未来在生命科学行业上云的浪潮中,可以更加清楚云上 HPC 带给行业的价值。


image.png

相关文章
|
8月前
|
分布式计算 安全 Hadoop
HBase启动时有进程webUI不显示HRegionServer各种情况解决方案
HBase启动时有进程webUI不显示HRegionServer各种情况解决方案
236 0
|
10月前
|
机器学习/深度学习 算法
【2023年更新计划】matlab相关机器学习应用研究计划及进程
【2023年更新计划】matlab相关机器学习应用研究计划及进程
|
SQL 运维 Oracle
【大数据开发运维解决方案】ogg(GoldenGate)三大进程常用参数
PORT 7809 管理进程的监听端口,默认使7809,当7809不可用时会从DYNAMICPORTLIST定义的列表中选择一个可用的端口,主要用于本地goldengate进程之间的通信 DYNAMICPORTLIST 7810-7860 动态端口,可以指定最大256个可用端口列表,用于主端和备端的进程通信,当目标端有防火墙设置时或者主端的投递进程传送数据要经过防火墙(就是主端有防火墙设置时)才能到达备端时,需要在网络上开通指定的端口。源端和目标段的Collector、Replicat、GGSCI进程通信也会使用这些端口,指定足够的端口去容纳进程数的扩张,这样就不需要停止和重启管理器进程
【大数据开发运维解决方案】ogg(GoldenGate)三大进程常用参数
|
SQL 缓存 运维
【大数据开发运维解决方案】GoldenGate replicat进程延迟分析步骤
GoldenGate几乎支持市面上流行的所有主流的操作系统平台和数据库。 博主所在单位目前使用Oracle GoldenGate将各个业务生产库汇聚到一起做数仓***实时ODS平台***, 我们采用异构同步,即源端同步过来的表在ODS新增了一个etltime字段,用来记录当前数据变更时间。 为了记录数据的事务变更历史记录,我们将数据的变更记录映射同步到一张tab_name_audit表中。为了防止源端业务库误删数据,我们将被删除的数据映射同步到一张tab_name_his表中。原表映射到ods后还是正常的映射同步dml操作。
【大数据开发运维解决方案】GoldenGate replicat进程延迟分析步骤
|
运维 Oracle 关系型数据库
【大数据开发运维解决方案】kill占用指定端口进程(定时自动重启weblogic脚本)
上面是总结的定时自动重启weblogic脚本以及如果不慎用root启动weblogic后如何恢复oracle用户的运维。 1、通过ps-ef |grep命令找到想要杀死的进程信息,然后配合awk和sed组织好要杀死的进程清单对应的shell语句,并通过sh命令自动执行kill: ps -ef |grep /home/apache-tomcat-7.0.76/|awk 'NR>1 {print $2}' | sed -e "s/^/kill -9 /g" | sh -
【大数据开发运维解决方案】kill占用指定端口进程(定时自动重启weblogic脚本)
|
JSON Dart 安全
【Flutter框架】项目的手动序列化小项目以及对于进程异步性和格式化代码的研究
【Flutter框架】项目的手动序列化小项目以及对于进程异步性和格式化代码的研究
|
安全 网络安全 数据可视化
Forcepoint DLP解决方案持续推高各机构的业务发展进程
2017年5月8日 —今天,全球网络安全的领导者Forcepoint宣布了其数据防护需求增长的强劲态势。Forcepoint发布说,这是由于越来越多企业客户采取了数据泄露防护(DLP)的集中管理解决方案,市场认知逐步形成以下共识: · 在Gartner“2017年数据泄露防护关键性能报告”的合规性
3543 0
|
Linux Shell
一个限制进程 CPU 使用率的解决方案
一个限制进程 CPU 使用率的解决方案 一 背景 在最近的一个项目中,需要限制 CPU 使用率。通过查阅各种资料,发现已经有直接可以使用的软件可以使用,这个软件就是cpulimit,这个软件使用非常简单。
1429 0
|
Windows 开发工具 IDE
【终极解决方案】为应用程序池“XXX”提供服务的进程在与 Windows Process Activation Service 通信时出现严重错误。该进程 ID 为“XXXX”。数据字段包含错误号。
原文:【终极解决方案】为应用程序池“XXX”提供服务的进程在与 Windows Process Activation Service 通信时出现严重错误。该进程 ID 为“XXXX”。数据字段包含错误号。
3443 0