基因大数据分析的云计算实践

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:

基因测序有着广泛的行业应用,在预防出生缺陷、检测遗传性疾病与肿瘤用药指导等领域,能提供极大帮助。近年来基因组学研究进展飞速,华大基因也凭借强大的研发实力,成为全球最大的基因组学研究中心,其研究成果在全球都有广泛的影响力。

在基因组学行业迅速发展的当下,基因测序成本已实现快速下降,从过去的天价一跃进入大众也能轻松负担的“千元”时代。同时,多项杀手级临床应用均引入基因测序,拉动覆盖用户数量成倍攀升。随着高通量测序仪的发展,需要存储计算的基因数据量,呈指数级增长。基因测序已进入爆发式的阶段,用户和应用量级的爆发,带来了数据计算的爆发。

随着生命科学领域数据爆炸式的增长,如何及时获取、快速分析、安全储存这些庞大的数据是研究者们急需解决的问题,包括华大基因都面临的挑战。2017年11月22日的广州云栖大会服务专场上,华大基因 BGI Online 产品总监黄泽辉,分享了华大基因在这个问题上面临的挑战与解决方案。

1

24小时,完成千人基因数据分析?

人一生的基因数据的管理和存储数据量相当庞大,而华大基因提供的基因快速检索和查询,涉及到基因数据在数据分析中的降维过程。过程中数据密集型和CPU密集型的计算分析任务,计算能力要求高,结果文件种类繁多,数据非结构化,不利于数据挖掘和可视化。目前使用了多地测序中心,用户分布广泛,数据共享和传输困难。

传统方案是基于大型计算设备和存储设备购买来解决,出于成本和服务器跟进速度的考量,华大基因 BGI Online 则搬到了云上,并且在分析层面上给用户定制化和个性化体验。不仅降低了数据分析门槛,用户也可直接在线上简单操作即可完成启动分析。

全面拥抱云计算,解决数据存储、传输、分析、安全问题

BGI Online作为大规模生物信息的分析平台,堪称基因行业的“应用市场”。依托部署在阿里云计算平台的服务,BGI Online更轻松地拥有了处理大规模基因组数据分析的能力。

2

基于BGI Online的基因数据分析需求,华大基因在阿里云平台上,设计了计算资源弹性伸缩、多级存储、海量存储计算与数据安全的云平台架构。

通过专线接入,来传输测序中心几十TB/day的数据;通过平台多数据中心部署,计算能力放至数据所在地,为美国、欧洲与中国等提供测序;混合使用阿里云的多种计算服务,数据通过OSS来互通。通过ECS在线上高灵活度地输出基因测序、利用批量计算测序可大规模降低成本、MaxCompute实现MapReduce小时级测序。

合作过程中,阿里云为华大基因提供了企业级支持服务和专家服务,保障华大基因的云上业务搭建与运转。包括指导产品选型与使用技术、提供APM报告及相应性能的分析优化;排查整改系统安全隐患、对生产高峰的任务支持进行专门保障。从曾经三四天才能输出一人基因分析,到如今实现了22小时内达成千人基因组分析的人类梦想。

3

生命的价值值得我们为之努力

基因组学数据是“天然”的大数据,计算分析的价值会超过测序本身,与云计算和大数据技术的结合是行业的需要。华大基因股份有限公司CEO尹烨说过,“基因测序为生物技术带来的改变,为生命创造的价值,值得我们为之努力。”

4

多年来,华大基因积累了来自制药、科研、临床和个人等多样且丰富的客户,对市场需求有了更深的理解。未来,华大基因将利用积累的技术与经验,继续研发不同层次结构组成,专注于生物信息分析流程开发和基因数据的挖掘的平台。未来应用应该可跨平台共享,由云计算服务持续提供底层数据存储、压缩的优化。 如此,势必能为中国在未来数十年在生命科学、生物产业提供持续增长的强劲动力。

了解更多请微博关注阿里云客户满意中心
__8

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
14天前
|
存储 算法 调度
云计算环境下的性能优化实践
云计算环境下的性能优化实践
|
11天前
|
存储 机器学习/深度学习 SQL
大数据处理与分析技术
大数据处理与分析技术
48 2
|
22天前
|
云安全 存储 监控
云计算安全:AWS与Azure的安全策略与实践比较
【10月更文挑战第26天】本文详细比较了AWS和Azure在安全性方面的策略和实践,涵盖身份与访问管理、数据加密与保护以及安全监控与响应。通过代码示例展示了两家云服务提供商在实际应用中的具体操作,帮助企业在选择云服务时做出明智决策。
30 0
|
11天前
|
人工智能 边缘计算 云计算
2024.11|云计算行业的商业模式创新方法及实践
截至2024年,全球云计算行业迈入全新阶段,从IaaS到大规模AI模型平台,技术与商业模式不断创新。本文分析全球最新技术进展,探讨云计算商业模式创新策略与实践,解析云服务厂商如何通过技术革新实现价值最大化,推动企业数字化与智能化转型。重点讨论AI与云计算的深度融合、边缘计算与去中心化发展、平台化与生态系统建设,以及数据安全与绿色云计算等关键议题。
62 30
|
2天前
|
机器学习/深度学习 分布式计算 算法
【大数据分析&机器学习】分布式机器学习
本文主要介绍分布式机器学习基础知识,并介绍主流的分布式机器学习框架,结合实例介绍一些机器学习算法。
38 5
|
2天前
|
云安全 监控 安全
云计算环境下的网络安全策略与实践
在数字化时代,云计算已成为企业和个人存储、处理数据的重要方式。然而,随着云服务的普及,网络安全问题也日益凸显。本文将探讨如何在云计算环境中实施有效的网络安全措施,包括加密技术、访问控制、安全监控和应急响应计划等方面。我们将通过具体案例分析,展示如何在实际场景中应用这些策略,以保护云中的数据不受威胁。
|
14天前
|
存储 监控 数据挖掘
【Clikhouse 探秘】ClickHouse 物化视图:加速大数据分析的新利器
ClickHouse 的物化视图是一种特殊表,通过预先计算并存储查询结果,显著提高查询性能,减少资源消耗,适用于实时报表、日志分析、用户行为分析、金融数据分析和物联网数据分析等场景。物化视图的创建、数据插入、更新和一致性保证通过事务机制实现。
65 14
|
21天前
|
云安全 存储 监控
云计算安全:AWS与Azure的安全策略与实践比较
【10月更文挑战第27天】本文对比分析了AWS和Azure在云计算安全领域的策略与实践,涵盖技术、定价、混合云工具等方面。通过代码示例展示了如何在两个平台上实施安全措施,如监控告警、数据加密和身份管理。总结了两者的优缺点,帮助读者根据具体需求选择合适的云服务提供商。
36 4
|
19天前
|
消息中间件 分布式计算 大数据
数据为王:大数据处理与分析技术在企业决策中的力量
【10月更文挑战第29天】在信息爆炸的时代,大数据处理与分析技术为企业提供了前所未有的洞察力和决策支持。本文探讨了大数据技术在企业决策中的重要性和实际应用,包括数据的力量、实时分析、数据驱动的决策以及数据安全与隐私保护。通过这些技术,企业能够从海量数据中提取有价值的信息,预测市场趋势,优化业务流程,从而在竞争中占据优势。
62 2
|
21天前
|
数据采集 机器学习/深度学习 搜索推荐
大数据与社交媒体:用户行为分析
【10月更文挑战第31天】在数字化时代,社交媒体成为人们生活的重要部分,大数据技术的发展使其用户行为分析成为企业理解用户需求、优化产品设计和提升用户体验的关键手段。本文探讨了大数据在社交媒体用户行为分析中的应用,包括用户画像构建、情感分析、行为路径分析和社交网络分析,以及面临的挑战与机遇。
下一篇
无影云桌面