基因大数据分析的云计算实践

简介:

基因测序有着广泛的行业应用,在预防出生缺陷、检测遗传性疾病与肿瘤用药指导等领域,能提供极大帮助。近年来基因组学研究进展飞速,华大基因也凭借强大的研发实力,成为全球最大的基因组学研究中心,其研究成果在全球都有广泛的影响力。

在基因组学行业迅速发展的当下,基因测序成本已实现快速下降,从过去的天价一跃进入大众也能轻松负担的“千元”时代。同时,多项杀手级临床应用均引入基因测序,拉动覆盖用户数量成倍攀升。随着高通量测序仪的发展,需要存储计算的基因数据量,呈指数级增长。基因测序已进入爆发式的阶段,用户和应用量级的爆发,带来了数据计算的爆发。

随着生命科学领域数据爆炸式的增长,如何及时获取、快速分析、安全储存这些庞大的数据是研究者们急需解决的问题,包括华大基因都面临的挑战。2017年11月22日的广州云栖大会服务专场上,华大基因 BGI Online 产品总监黄泽辉,分享了华大基因在这个问题上面临的挑战与解决方案。

1

24小时,完成千人基因数据分析?

人一生的基因数据的管理和存储数据量相当庞大,而华大基因提供的基因快速检索和查询,涉及到基因数据在数据分析中的降维过程。过程中数据密集型和CPU密集型的计算分析任务,计算能力要求高,结果文件种类繁多,数据非结构化,不利于数据挖掘和可视化。目前使用了多地测序中心,用户分布广泛,数据共享和传输困难。

传统方案是基于大型计算设备和存储设备购买来解决,出于成本和服务器跟进速度的考量,华大基因 BGI Online 则搬到了云上,并且在分析层面上给用户定制化和个性化体验。不仅降低了数据分析门槛,用户也可直接在线上简单操作即可完成启动分析。

全面拥抱云计算,解决数据存储、传输、分析、安全问题

BGI Online作为大规模生物信息的分析平台,堪称基因行业的“应用市场”。依托部署在阿里云计算平台的服务,BGI Online更轻松地拥有了处理大规模基因组数据分析的能力。

2

基于BGI Online的基因数据分析需求,华大基因在阿里云平台上,设计了计算资源弹性伸缩、多级存储、海量存储计算与数据安全的云平台架构。

通过专线接入,来传输测序中心几十TB/day的数据;通过平台多数据中心部署,计算能力放至数据所在地,为美国、欧洲与中国等提供测序;混合使用阿里云的多种计算服务,数据通过OSS来互通。通过ECS在线上高灵活度地输出基因测序、利用批量计算测序可大规模降低成本、MaxCompute实现MapReduce小时级测序。

合作过程中,阿里云为华大基因提供了企业级支持服务和专家服务,保障华大基因的云上业务搭建与运转。包括指导产品选型与使用技术、提供APM报告及相应性能的分析优化;排查整改系统安全隐患、对生产高峰的任务支持进行专门保障。从曾经三四天才能输出一人基因分析,到如今实现了22小时内达成千人基因组分析的人类梦想。

3

生命的价值值得我们为之努力

基因组学数据是“天然”的大数据,计算分析的价值会超过测序本身,与云计算和大数据技术的结合是行业的需要。华大基因股份有限公司CEO尹烨说过,“基因测序为生物技术带来的改变,为生命创造的价值,值得我们为之努力。”

4

多年来,华大基因积累了来自制药、科研、临床和个人等多样且丰富的客户,对市场需求有了更深的理解。未来,华大基因将利用积累的技术与经验,继续研发不同层次结构组成,专注于生物信息分析流程开发和基因数据的挖掘的平台。未来应用应该可跨平台共享,由云计算服务持续提供底层数据存储、压缩的优化。 如此,势必能为中国在未来数十年在生命科学、生物产业提供持续增长的强劲动力。

了解更多请微博关注阿里云客户满意中心
__8

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
13天前
|
人工智能 安全 网络安全
云计算环境下的网络安全策略与实践
【4月更文挑战第30天】本文聚焦于当前快速发展的云计算环境中的网络安全问题。首先,分析了云服务模式对传统网络架构的冲击和安全挑战;然后,探讨了在多租户、资源共享的前提下,如何保障数据隔离、访问控制及传输安全等关键安全要素;进一步地,提出了一系列创新的安全机制,包括基于行为分析的入侵检测系统、加密技术的最新应用,以及利用人工智能进行安全事件预测和管理的策略。最后,结合案例分析,评估了这些策略在现实业务中的有效性,并展望了未来云计算与网络安全融合发展的趋势。
|
14天前
|
安全 网络安全 量子技术
网络安全与信息安全:保护数字世界的锁与钥构建安全防线:云计算环境中的网络安全策略与实践
【4月更文挑战第29天】在数字化时代,数据成为了新的石油,而网络安全则是保护这些宝贵资源的防线。本文深入探讨了网络安全漏洞的成因、加密技术的进展以及提升安全意识的重要性。通过对网络威胁的分析,我们揭示了安全漏洞的本质和它们如何被黑客利用。接着,文章详细解读了现代加密技术,包括对称加密、非对称加密和散列函数,并强调了量子计算对未来加密的潜在影响。最后,通过教育和技术实践的建议,我们强调了培养全民网络安全意识的必要性。 【4月更文挑战第29天】 在数字化转型的浪潮中,云计算作为支撑企业敏捷性与效率的关键基础设施,其安全性受到了前所未有的关注。本文深入探讨了云计算环境下所面临的独特安全挑战,并提出
|
3天前
|
数据采集 供应链 安全
利用大数据优化业务流程:策略与实践
【5月更文挑战第11天】本文探讨了利用大数据优化业务流程的策略与实践,包括明确业务目标、构建大数据平台、数据采集整合、分析挖掘及流程优化。通过实例展示了电商和制造企业如何利用大数据改进库存管理和生产流程,提高效率与客户满意度。随着大数据技术进步,其在业务流程优化中的应用将更加广泛和深入,企业需积极采纳以适应市场和客户需求。
|
3天前
|
存储 安全 网络安全
构筑安全之盾:云计算环境下的网络安全策略与实践
【5月更文挑战第11天】 在数字化时代,云计算已成为企业及个人存储、处理和访问数据的重要平台。然而,随着云服务的广泛采用,网络安全威胁也随之增加,给信息保护带来了前所未有的挑战。本文深入探讨了云计算环境中的网络安全策略,包括加密技术、身份验证、访问控制及入侵检测系统等,旨在为读者提供一个关于如何在云服务中维护信息安全的全面视角。同时,文中还分析了当前云安全领域面临的主要挑战,并提出了未来可能的发展方向,以期对构建更为安全、可靠的云计算环境做出贡献。
5 0
|
3天前
|
监控 安全 网络安全
云端防御战线:云计算环境下的网络安全策略与实践
【5月更文挑战第10天】 在数字化转型的浪潮中,云计算作为支撑企业运营的骨干技术之一,其安全性问题备受关注。随着云服务模式的多样化和复杂化,传统的网络安全防护机制已难以完全适用于云环境。本文深入探讨了云计算环境中特有的安全威胁,分析了云计算服务模型(IaaS、PaaS、SaaS)的安全挑战,并提出了相应的安全策略与最佳实践。通过采用多层次防御架构、强化身份认证与访问控制、实施数据加密与隐私保护措施以及建立持续监控与响应机制,旨在为组织在享受云计算带来的便捷性的同时,确保其数据和服务的安全性。
|
5天前
|
数据可视化 大数据 Python
python大数据分析处理
python大数据分析处理
10 0
|
6天前
|
机器学习/深度学习 人工智能 大数据
AI时代Python金融大数据分析实战:ChatGPT让金融大数据分析插上翅膀
AI时代Python金融大数据分析实战:ChatGPT让金融大数据分析插上翅膀
|
6天前
|
监控 云计算 开发者
探索云计算中的无服务器架构:从概念到实践
无服务器架构作为云计算领域的新兴技术,正在以其高效、灵活的特性吸引着越来越多的开发者和企业。本文将深入探讨无服务器架构的概念及其在云计算中的应用,通过实际案例展示如何利用无服务器架构构建可靠、可扩展的应用系统。
|
8天前
|
存储 安全 网络安全
云端防御:云计算环境中的网络安全策略与实践
【5月更文挑战第6天】 随着企业和个人日益依赖云服务,数据存储、处理和流通的边界变得模糊。这种转变不仅带来了灵活性和成本效益,也引入了新的安全挑战。本文探讨了云计算环境下网络安全的关键问题,包括身份验证、数据加密、访问控制和威胁监测等。通过分析当前云安全的最佳实践和面临的挑战,我们提出了一系列战略性措施以增强云基础设施的安全性,并确保信息资产的保密性、完整性和可用性得到保护。
33 5
|
9天前
|
分布式计算 API 云计算

热门文章

最新文章