华大基因BGI Online的云计算实践

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 华大基因是全球最大的基因测序服务公司之一,随着基因产业的迅猛发展,加之基因大数据的爆炸性增长,催生了云计算的应用。华大基因与阿里云强强联手,打造出一款强大的基因云平台——BGI Online,希望通过利用云计算、大数据分析等技术对基因数据进行深度挖掘,从而不断加速精准医疗的发展。

本文正在参加“最佳上云实践”评选,来给我们投票吧:https://yq.aliyun.com/activity/158(编号13)

基因测序为生命科学领域带来机遇,随着测序技术的发展和测序成本的降低,基因测序在生物信息与医疗健康等领域得到广泛应用。但同时,基因测序行业也面临着处理及分析海量数据的全新挑战。传统的硬盘已无法满足大数据的存储,而大数据处理和分析解读工作存在复杂性和不可预测性,因此需要极强的计算能力。

 

我们的产品生物信息分析云平台BGI Online正是为了解决这个难题而诞生。BGI Online是由华大基因开发的一款基于“云”的生物信息数据云平台。2014年,BGI Online项目启动;2015年,我们在评估了数据存储与计算的需求后,决定与阿里云合作,选择其作为我们产品的主要计算资源供应商。通过在云计算、大数据领域的长期技术积累,阿里云具备支撑这个世界最大基因中心核心业务系统的能力,满足我们在数据处理、隐私安全保护以及传输方面极为严苛的要求。

 

1. 架构解析/优化

任何系统架构的搭建和新技术的应用都是由业务需求催生的。生物信息分析面对的基因数据动则数十G乃至上百G,大文件的传输、存储、计算对平台的IO吞吐、扩展性、伸缩性都有很高的要求。生物信息分析是对大文件的精细分析,同时属于数据密集型、计算密集型、IO密集型应用。大量基因数据的持久化和流动,要求文件管理系统的大容量、高伸缩、高通量;大量的计算需求要求计算资源的高性能、高时效、经济性。

 

为了满足用户基因数据的存、管、算、传,BGI Online系统设计了多个架构组件,分别为前端、后端、任务管理引擎、存储管理、文件传输五大部分。前端通过WEB服务呈现系统业务和提供用户操作,WEB请求通过SLB做负载均衡,并在阿里云提供的VPC和云盾的防护下提供高可用的服务。后端管理系统的业务数据和处理业务逻辑,后端服务部署在多台ECS上,并采用RDS服务存储业务数据。任务管理引擎接受前端请求,管理计算资源实现生物信息数据的分析,阿里云提供了海量的ECS节点,并对每个ECS节点提供了完整、详细的API文档,通过对接ECS节点实现了计算资源的弹性伸缩和强大的分布式计算能力。存储管理负责基因数据的存储和管理,运用OSS和OAS实现了基因数据的冷热存储,除了OSS和OAS本身提供的加密存储外,还对接OSS服务实现数据的去身份化,大大提高了平台的安全性。文件传输通过部署在ECS上的服务提供,庞大的基因数据上云是数据流的起始端和瓶颈,阿里云通过铺设阿里机房到华大集群的专线,显著提升了数据传输的速度。BGI Online的架构见下图:

64643f5ac7d76e78e4ed79846c3590c1ad033f6b


2. 上云前后分析对比

阿里云服务让我们从繁重的基础设施购置与维护中解放出来,从而专注于平台的开发和运营。BGI Online在阿里云上的稳定存储量已经超过400TB,阿里云提供安全、海量的存储服务保障了基因数据的安全和业务需求,促进了我们业务的发展。通过与阿里云的深度合作和研究实践,在双方的共同努力下,将生物信息分析在云上的计算时效一步步向前推进,在21小时47分12秒内完成了1000例人类全外显子组数据的分析,效率提升了400%。阿里云作为中国最大的公有云服务提供商,连接各行各业广大的用户群体,任何用户都可以通过网路享受阿里云上的服务,在保障安全的前提下最大化地连接了用户。BGI Online平台依托开放的阿里云服务提供在线协作功能,不同角色的用户可以在平台上完成数据交付、生物信息分析、项目管理、生物信息工具开发等一系列业务功能,整合了行业的多种分工,建立起了一个完整的行业生态。

 

2016年8月30日,BGI Online国内版正式在公司内部上线内测,此后陆续完成了十几个大型项目的流程部署与测试,如24小时内完成储存峰值超10T、计算任务超1000个的87个遗传病家系基因组分析,和成功部署由开发者自主研发的单细胞基因组分析等项目,并取得突破性成果,阿里云的云服务在这些项目中起到了关键性的作用。

 

总结

BGI Online平台利用阿里云的云技术服务实现了在医学研究、疾病筛查及临床医疗等不同应用场景、模式下的低成本及高效自动化的基因数据传输与存储,同时也解决了数据安全及计算资源的问题。我们团队相信,有了阿里云的核心力量支持,BGI Online平台必将不断创造生物云计算行业的“新纪录”!

 

相关实践学习
2分钟自动化部署人生模拟器
本场景将带你借助云效流水线Flow实现人生模拟器小游戏的自动化部署
7天玩转云服务器
云服务器ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,可降低 IT 成本,提升运维效率。本课程手把手带你了解ECS、掌握基本操作、动手实操快照管理、镜像管理等。了解产品详情: https://www.aliyun.com/product/ecs
目录
相关文章
|
27天前
|
运维 持续交付 云计算
深入解析云计算中的微服务架构:原理、优势与实践
深入解析云计算中的微服务架构:原理、优势与实践
61 1
|
2月前
|
Kubernetes Cloud Native 持续交付
云计算的转型之路:云原生技术的崛起与实践####
【10月更文挑战第16天】 本文深入探讨了云原生技术在现代IT架构变革中的核心作用,不同于传统概述,本摘要将聚焦于云原生如何促进企业实现敏捷开发、弹性伸缩及高效运维,通过具体案例分析展现其在实际业务场景中的创新应用,揭示这一技术趋势对企业数字化转型的深远影响。 ####
59 2
|
1月前
|
云安全 存储 监控
云计算安全:AWS与Azure的安全策略与实践比较
【10月更文挑战第26天】本文详细比较了AWS和Azure在安全性方面的策略和实践,涵盖身份与访问管理、数据加密与保护以及安全监控与响应。通过代码示例展示了两家云服务提供商在实际应用中的具体操作,帮助企业在选择云服务时做出明智决策。
51 0
|
1月前
|
人工智能 边缘计算 云计算
2024.11|云计算行业的商业模式创新方法及实践
截至2024年,全球云计算行业迈入全新阶段,从IaaS到大规模AI模型平台,技术与商业模式不断创新。本文分析全球最新技术进展,探讨云计算商业模式创新策略与实践,解析云服务厂商如何通过技术革新实现价值最大化,推动企业数字化与智能化转型。重点讨论AI与云计算的深度融合、边缘计算与去中心化发展、平台化与生态系统建设,以及数据安全与绿色云计算等关键议题。
97 30
|
1月前
|
运维 监控 持续交付
云计算环境下的运维自动化实践
本文探讨了在云计算环境下实施运维自动化的必要性、挑战及解决方案,重点介绍了如何利用现代技术工具实现高效的云资源管理和监控。通过具体案例分析,展示了自动化运维在提升系统稳定性、降低人力成本方面的优势。
|
1月前
|
云安全 监控 安全
云计算环境下的网络安全策略与实践
在数字化时代,云计算已成为企业和个人存储、处理数据的重要方式。然而,随着云服务的普及,网络安全问题也日益凸显。本文将探讨如何在云计算环境中实施有效的网络安全措施,包括加密技术、访问控制、安全监控和应急响应计划等方面。我们将通过具体案例分析,展示如何在实际场景中应用这些策略,以保护云中的数据不受威胁。
|
1月前
|
弹性计算 监控 大数据
云计算中的弹性伸缩:原理与实践
云计算中的弹性伸缩:原理与实践
|
1月前
|
存储 算法 调度
云计算环境下的性能优化实践
云计算环境下的性能优化实践
|
1月前
|
云安全 存储 监控
云计算安全:AWS与Azure的安全策略与实践比较
【10月更文挑战第27天】本文对比分析了AWS和Azure在云计算安全领域的策略与实践,涵盖技术、定价、混合云工具等方面。通过代码示例展示了如何在两个平台上实施安全措施,如监控告警、数据加密和身份管理。总结了两者的优缺点,帮助读者根据具体需求选择合适的云服务提供商。
47 4
|
27天前
|
Cloud Native 持续交付 云计算
云计算的转型之路:探索云原生架构的崛起与实践####
随着企业数字化转型加速,云原生架构以其高效性、灵活性和可扩展性成为现代IT基础设施的核心。本文深入探讨了云原生技术的关键要素,包括容器化、微服务、持续集成/持续部署(CI/CD)及无服务器架构等,并通过案例分析展示了这些技术如何助力企业实现敏捷开发、快速迭代和资源优化。通过剖析典型企业的转型经历,揭示云原生架构在应对市场变化、提升业务竞争力方面的巨大潜力。 ####
33 0