突破数据分析瓶颈,寻因生物单细胞测序数据分析迈入云时代

简介: i4p持久内存实例+Memory Machine大内存虚拟化软件,发挥持久内存的全部性能。

世上没有两片完全相同的树叶,人体内的每两个细胞也是截然不同的。长久以来,基因检测技术主要是在组织层面对样本进行解析,获得的是成千上万个细胞的平均值,但这会让很多信息是被隐匿,对疾病的认知和理解存在很大的障碍。



单细胞检测技术将基因检测的水平提升到了单细胞的精度,可以揭示每一个细胞的细微变化,对疾病的认知、诊疗方式的改变、药物研发的方式提供了更好的方法。而其中,高通量测序(NGS)技术因其高度准确性和特异性成为了单细胞测序的理想工具。

 

寻因生物,是一家自主研发单细胞技术的精准医疗生物医药企业,致力于通过国产高通量单细胞全链条产品及服务,将单细胞技术普适化,应用于临床及药物研发,推动相关疾病研究。

 

通常,单细胞测序工作流程包含单细胞样本制备、单细胞分离和文库制备、测序和初级分析、数据可视化和解读四个步骤。作为国内独家拥有微孔芯片与油包水双技术平台的寻因生物来说,单细胞样本制备、单细胞分离和文库制备是其强项。同时,寻因生物具有完备的数据分析和解读能力,底层分析计算效率的提升十分必要。

 

据悉,在单细胞测序数据分析环节,业界普遍存在数据量大、分析时间长的挑战。仅一个单细胞测序文件的大小可达100GB以上,而随着一个单细胞项目包含的样本量越来越多,可能产生数百GB甚至TB级的细胞数据;同时,单细胞数据的分析复杂,需要反复做数据读取和参数调整,所以处理海量细胞样本的分析任务通常需要数小时甚至数天才能完成。因此,超大数据量和分析复杂性所导致的任务并发度低和数据加载速率慢是未来单细胞分析性能的主要瓶颈之一

 

在单细胞测序数据分析过程中,每个细胞的表达量数据高达数十万条读取 (reads),产生的数据更是要大得多,这种海量级的数据分析对云主机的内存容量提出了更高的要求。而通用的云主机的内存容量与CPU配比有限,单细胞的分析任务常会出现因内存不足而导致运行失败;而选用传统的大内存云主机,不仅要付出更加高昂的成本,而且会造成CPU算力的浪费。所以,内存容量的限制使寻因生物不得不将样本参数调低来满足运行任务。此外,通用的云主机仅能支持运行一个单细胞分析任务,在测序任务多的情况下,寻因生物只能将多任务排队执行,非常耗时;同时,在测序数据分析过程中,每次临时数据在磁盘上的导出和加载(IO)过程长达1000秒,随着数据集的持续增长,这种处理速度阻碍了预期的研究发现时间。

 

当前,寻因生物将单细胞测序分析任务部署在了第三代英特尔® 至强® 可扩展处理器 (代号: Ice Lake) 和  英特尔® 傲腾™ 持久内存的阿里云i4p持久内存型实例上,并在实例中使用了MemVerge公司开发的 Memory Machine大内存软件,不但完全消除磁盘读写带来的IO瓶颈,帮助寻因生物成功地运行了多细胞数、大样本的测序数据分析任务,并能通过Memory Machine的ZeroIO内存快照功能使数据导出和加载从原来的1000秒降至2.5秒,将数据读取的效率提升了两个数量级

 

阿里云i4p持久内存实例是基于英特尔® 傲腾™ 持久内存推出的第二代持久内存实例,傲腾® 持久内存让高性价比的大容量内存与对数据持久性的支持巧妙地结合在一起,将更多数据保存在更靠近CPU的地方,加速了大内存计算, 可以说重新定义了传统的两级存储架构。

 

除基本vCPU和内存外,阿里云i4p实例还配置了持久内存资源,极大地扩展了主机的内存容量,让内存中可以存放更多数据用于测序数据分析,同时并发运行更多的测序任务,相对于传统普通大内存实例,i4p持久内存实例可以帮助用户打破“内存墙”藩篱,获得更高性能的同时,有效降低整体IT基础设施拥有成本(TCO)

 

MemVerge开发的Memory Machine大内存虚拟化软件,可运行在i4p持久内存实例中,将其中的持久内存和普通内存进行融合,可以透明地使用大内存资源,无需对应用进行改造,即可充分发挥持久内存的全部性能;其软件的高级功能“ZeroIO内存快照”,可以完全避免临时数据的磁盘IO过程,实现客户应用性能的飞跃。同时通过阿里云计算巢还实现了Memory Machine大内存虚拟化软件与云平台的标准化集成,实现快速的软件交付部署和标准化的运维管理,大幅提升了业务效率

 

“这能够使我们的单细胞数据分析业务完全消除IO瓶颈,并在实际的分析任务中将持久内存的大容量能力充分利用起来,让任务的并发能力提升了5倍以上,且该方案能让多细胞数,大样本任务能顺利地运行成功,对提高我们生信用户的业务吞吐能力和工作效率有非常大的助力。”寻因生物公司生物部张广鑫表示。


相关文章
|
6月前
|
存储 数据可视化 算法
空间单细胞|基于图像的空间数据分析(2)
空间单细胞|基于图像的空间数据分析(2)
131 0
|
5月前
|
编解码 数据可视化 数据挖掘
空间单细胞|10x Visium数据分析、可视化与整合(3)
空间单细胞|10x Visium数据分析、可视化与整合(3)
65 3
空间单细胞|10x Visium数据分析、可视化与整合(3)
|
5月前
|
数据采集 编解码 数据可视化
空间单细胞|10x Visium数据分析、可视化与整合(1)
空间单细胞|10x Visium数据分析、可视化与整合(1)
70 1
|
5月前
|
编解码 数据可视化 算法
空间单细胞|10x Visium数据分析、可视化与整合(2)
空间单细胞|10x Visium数据分析、可视化与整合(2)
38 0
|
6月前
|
数据可视化 数据挖掘 数据库
空间单细胞|基于图像的数据分析(3)
空间单细胞|基于图像的数据分析(3)
58 0
|
数据可视化 数据挖掘 Python
跟着Science学数据分析:利用三代测序数据(PacBio)鉴定结构变异
跟着Science学数据分析:利用三代测序数据(PacBio)鉴定结构变异
|
编解码 弹性计算 搜索推荐
阿里云E-HPC+i4p大内存实例,加速寻因生物单细胞数据分析效率
将单细胞测序技术与IT基础设施结合在一起,实现1+1大于2的效果。
阿里云E-HPC+i4p大内存实例,加速寻因生物单细胞数据分析效率
|
28天前
|
机器学习/深度学习 算法 数据挖掘
数据分析的 10 个最佳 Python 库
数据分析的 10 个最佳 Python 库
83 4
数据分析的 10 个最佳 Python 库
|
4月前
|
数据采集 数据可视化 数据挖掘
数据分析大神养成记:Python+Pandas+Matplotlib助你飞跃!
在数字化时代,数据分析至关重要,而Python凭借其强大的数据处理能力和丰富的库支持,已成为该领域的首选工具。Python作为基石,提供简洁语法和全面功能,适用于从数据预处理到高级分析的各种任务。Pandas库则像是神兵利器,其DataFrame结构让表格型数据的处理变得简单高效,支持数据的增删改查及复杂变换。配合Matplotlib这一数据可视化的魔法棒,能以直观图表展现数据分析结果。掌握这三大神器,你也能成为数据分析领域的高手!
93 2
|
4月前
|
机器学习/深度学习 数据采集 数据可视化
基于爬虫和机器学习的招聘数据分析与可视化系统,python django框架,前端bootstrap,机器学习有八种带有可视化大屏和后台
本文介绍了一个基于Python Django框架和Bootstrap前端技术,集成了机器学习算法和数据可视化的招聘数据分析与可视化系统,该系统通过爬虫技术获取职位信息,并使用多种机器学习模型进行薪资预测、职位匹配和趋势分析,提供了一个直观的可视化大屏和后台管理系统,以优化招聘策略并提升决策质量。
230 4