1 客户介绍
在国内疫情肆虐之际,中山大学医学院通过与多家医院、疾控中心等合作,计划获取超过千名武汉市新冠患者的核酸样本,以及部分病人的全病程数据,希望通过基因组测序及测序数据分析,阐述冠状病毒的起源、进化和致重症机制。
中山大学医学院使用宏转录组的方法,期望从原始样本中挖掘得到所有关键的遗传信息。科学家们通过分析这些遗传信息重现病原体感染、宿主免疫和机体内环境相互作用的动态过程,寻找导致机体重症的关键因素。此外,科学家会将分析后的临床信息、病毒信息、基因组信息和实验结果数据汇总,构建新冠感染相关大数据,帮助研究病毒起源,也方便后续研究。
2 业务痛点
在研究过程中,科学家首先需要通过高通量基因测序平台,对原始样本进行测序,获得样本中包括病毒、细菌和宿主的完整遗传信息。遗传信息的拼装和比对需要高性能计算进行处理,海量的数据更是需要大规模算力。
本次实验处理的病例超过 1000 人,一般病例至少采集两份数据,单份数据就有 2~3G,部分病例为了采集全病程数据还采样数十次,还要再加上对照组信息。同时,中山大学的科学家还需要下载美国国家生物信息中心 NCBI(National Center for Biotechnology Information)中的约 8000 个样品进行比对,其产生的数据之海量可想而知。
3 解决方案和价值
通过阿里云弹性高性能计算(E-HPC)一键部署 HPC 集群环境,根据需求动态增减集群节点,免去了研究人员们针对服务器的管理和维护,不需要在运维上耗费过多精力,只需专注在研究上。
同时,阿里云弹性高性能计算(E-HPC)团队协助中山大学使用阿里云计算服务进行生信科学计算,提供 104 核处理器,相比线下服务器,数据组装、比对性能提升 25% 以上。
在性能与资源的双重支持下,原本每个病例的测序结果需要 12 个小时左右的分析时间,在阿里云上缩减到了 2 个小时。原本需要 1 年的运算量缩减到了约 2 个月时间,大大提高了工作效率,加快了研究进程,也为抗疫赢得了时间。
结束语
生命科学行业目前迎来巨大的发展机遇,云上 HPC 为生命科学行业带来新途径。同时 AI 在分子动力学等领域也极大地提升模拟速度,如AlphaFold2。AI for Science 正在迎来巨大的发展机遇,促进行业发展。云计算可以为生命科学行业提供安全、可靠、高效的平台,将企业从计算资源管理和运维中释放出来,进一步推动行业的技术发展和效率提升。生命科学行业上云是未来必然的发展趋势,相信未来在生命科学行业上云的浪潮中,可以更加清楚云上 HPC 带给行业的价值。