金鑫:基因应用现状解析及华大基因的数据平台架构

本文涉及的产品
全局流量管理 GTM,标准版 1个月
云解析 DNS,旗舰版 1个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 回到10年前,2007年这个世界有基因数据的人不超过10个,那个时候读取一个基因数据需要上亿美金;10年后的今天,成本被降到了1千美金之内,同时基于人们对更高健康水平的需求,统计已按百万计。而着眼当下,基因研究主要可分3个维度。
前不久《金刚狼3:殊死一战》上映,在狼叔休·杰克曼的光环下,仅两周时间,全球票房已高达4.38亿美元,其中精彩的动作戏与狼叔的谢幕无疑是观众追求的热点。然而不管是《金刚狼》抑或是《X战警》,基因突变带来的超能力都是贯穿整个故事的基本元素。

基因科技是什么?时至今日相信大家都已经有了一定的了解,就比如孕妈妈熟知的无创基因检测,又比如说大量场景中用到的DNA亲权鉴定。然而,在这之外,日常生活中基因应用还有哪些方面?是否如电影《生化危机》、《我是传奇》那样遥远又恐惧?借用时下热门的云计算、大数据等技术基因研究这种全人类事业又会产生什么样的助力?近日,云栖社区采访了深圳华大基因股份有限公司研发中心副总监金鑫,就上述几个问题进行了讨论。

科研、医学、人人,基因的研究、应用与探索

10年后的今天,每个新生儿出生后记录的可能不仅是身高体重,还包括了他的基因数据——金鑫。

觉得不太可能?在惊讶的目光中,金鑫表示:回到10年前,2007年这个世界有基因数据的人不超过10个,那个时候读取一个基因数据需要上亿美金;10年后的今天,成本被降到了1千美金之内,同时基于人们对更高健康水平的需求,统计已按百万计。而着眼当下,基因研究主要可分为以下3个维度:

1. 科研的服务。类似大多新技术,基因研究最初也是在科学研究的基础上发展起来,比如寻找一些疾病的致病基因,又比如熊猫为什么不吃肉,通过研究熊猫的基因组会发现,其基因组例感受肉鲜味的基因“坏”掉了。

2. 医学的服务。在之前,医学实践之所以比较少用,原因在于技术上没有突破,同时缺少人类基因组参考序列。时下对于基因的研究已经有了更好的基础,同时成本也飞速下降,所以有了临床应用的可能,就比如生育健康、肿瘤相关、病源感染相关方面,也就是生死染:
  • 生,即生育健康,主要防控出生缺陷遗传病,例如唐氏综合征,发病率大约是800分之一,传统筛查会出现较高的假阳性,提示高风险,从而需要做侵入性检查,带来感染和流产的风险。然而通过基因检测技术,母体抽血就可以避免这种情况,从而对原本检查技术提供了很好的补充。
  • 死,即肿瘤,其最主要就是靶向药物的选择,因为时下治疗方案一般就是手术、化疗放疗及靶向药物,而靶向药的靶点一般都是基因的标记。因此在治疗方案之前,先就肿瘤组织进行检测,知道靶点后确定明确的治疗方案。当然,限于时下的医学水平,治愈还有很大挑战,但是却可以在控制上更推进一步,提高患者生存率或生存时间。
  • 染,即感染,病原微生物,就比如SARS,刚发生时无法得知前因后果,比如究竟是病毒、细菌还是其他,从而造成一定程度的恐慌。直到基因数据被读取,才清楚其病原体。
3.人人服务。在医学服务中的生育健康其实关乎到整个人口质量、社会负担及家庭负担。 时下整个出生缺陷的发病率在5.6%,而华大基因的目标是使用基因技术,使出生缺陷发生率在此基础上降低50%以上。

在基因研究方面,华大基因、Intel、阿里云共同发起了一个2020计划,希望在2020年实现1个人的基因样本采集、处理、测序及初步分析在一天内完成。而在这中间,云一方面提供了海量的资源,加速计算和解读的过程,另一方面,让很多人可以同时对多个数据进行比较,从而更精准地解读。

海量数据、异地,基因研究与应用挑战

2016年3月10日之前,7年华大基因完成了100万例孕妇产检,然而在2016年底已超过170万,同时随着成本降低、人们思想进步、基因技术突破及二胎等政策推出,相信这个数据体量会愈来越大——金鑫。

一个人的基因组数据大约在3个G,为了得到精准的基因数据,通常需要进行几十上百不等次的冗余测讯,而做肿瘤基因检需要进行上万次。因此,联系具体业务,其存在的主要挑战有:
  • 海量数据。一直以来华大基因都在不断地扩展自己的计算集群,也有多个区域的生产中心,比如武汉,天津,也包括面向海外的香港,总部深圳也有自己的测序中心和对应的数据中心。以前,测序中心选址往往决定了数据中心方位,然而随着业务的飞速增长,硬件规模增长已无法匹配数据规模的增长,出现了很严重的任务积压。
  • 异地模式。基因研究更应该是一个多人、多基因序列的对比,然而基因数据本身体量比较大,限于现在的网络环境很难实现这一点。其次,如上所述,虽然有着多地多机房,但是随着任务量剧增,如果将数据在多机房来回切换显然也无法满足时效性。
基于上述挑战,华大基因通过阿里云为BGI Online(安全、⾼效、易⽤的⽣物信息服务云平台,为⽣物信息领域的各类科研工作者和工具开发者提供便利)注入弹性,同时也释放了每个数据中心部署耗费的大量人力、财力和物力,其总体架构如下:

a757a14aa3cbe7ebc85fd7f2999a23004f861a87

  • 前端通过WEB服务呈现系统业务和提供用户操作,WEB请求通过SLB做负载均衡,并在阿里云提供的VPC和云盾的防护下提供高可用的服务。
  • 后端管理系统的业务数据和处理业务逻辑,后端服务部署在多台ECS上,并采用RDS服务存储业务数据。
  • 任务管理引擎接受前端请求,管理计算资源实现生物信息数据的分析,阿里云提供了海量的ECS节点,并对每个ECS节点提供了完整、详细的API文档,通过对接ECS节点实现了计算资源的弹性伸缩和强大的分布式计算能力。
  • 存储管理负责基因数据的存储和管理,运用OSS和OAS实现了基因数据的冷热存储,除了OSS和OAS本身提供的加密存储外,还对接OSS服务实现数据的去身份化,提高了平台的安全性。
  • 文件传输通过部署在ECS上的服务提供,庞大的基因数据上云是数据流的起始端和瓶颈,阿里云通过铺设阿里机房到华大集群的专线,提升了数据传输的速度。
而就在去年,基于华大基因开发的新一代基因云计算平台BGI Online,华大基因、阿里云和安徽医科大学三方共同协作在21小时47分12秒内完成了1000例人类全外显子组数据的分析,创造了基因数据分析的“深圳速度”。

人人服务,基因研究未来的发展

基因行业还在非常早期,现在看到的就是一些非常确定的应用,和非常确定的结果——金鑫。

如果只有一份基因数据,能解释的事情非常少,同时在人的基因之外,动植物、甚至是微生物这些组成人类生活环境的因素同样需要分析。因此,去年建立了我国第一个也是唯一一个国家基因库(由华大基因承接和运营)。而在这之外,华大基因更与多家国际组织达成合作,比如IRDiRC国际罕见病研究联盟,也比如与费城儿童医院在儿童脑癌上的研究。

同时金鑫还表示,时下云计算、大数据、人工智能等技术同样会给基因研究带来很大的助力,比如在计算、存储之外,华大基因已与阿里云展开了大量机器学习相关方面的合作,比如说预测小米性状,通过小米的基因数据,种植环境来预判小米的产量、特性等。同时也正在与阿里云合作,通过更好的算法去预测肿瘤的驱动基因。

在最后,金鑫再次强调了基因研究上“我为人人”这个概念,他表示,就如BGI Online生物信息数据云平台,基于云基础设施能够搭建不同的基因数据分析场景,不同的人可以在上面搭建自己的分析流程,为⽣物信息领域的各类科研工作者和工具开发者提供便利。
相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
18天前
|
机器学习/深度学习 人工智能 自然语言处理
AI技术深度解析:从基础到应用的全面介绍
人工智能(AI)技术的迅猛发展,正在深刻改变着我们的生活和工作方式。从自然语言处理(NLP)到机器学习,从神经网络到大型语言模型(LLM),AI技术的每一次进步都带来了前所未有的机遇和挑战。本文将从背景、历史、业务场景、Python代码示例、流程图以及如何上手等多个方面,对AI技术中的关键组件进行深度解析,为读者呈现一个全面而深入的AI技术世界。
90 10
|
30天前
|
运维 Cloud Native 持续交付
深入理解云原生架构及其在现代企业中的应用
随着数字化转型的浪潮席卷全球,企业正面临着前所未有的挑战与机遇。云计算技术的迅猛发展,特别是云原生架构的兴起,正在重塑企业的IT基础设施和软件开发模式。本文将深入探讨云原生的核心概念、关键技术以及如何在企业中实施云原生策略,以实现更高效的资源利用和更快的市场响应速度。通过分析云原生架构的优势和面临的挑战,我们将揭示它如何助力企业在激烈的市场竞争中保持领先地位。
|
2月前
|
运维 持续交付 云计算
深入解析云计算中的微服务架构:原理、优势与实践
深入解析云计算中的微服务架构:原理、优势与实践
70 1
|
27天前
|
运维 监控 持续交付
微服务架构解析:跨越传统架构的技术革命
微服务架构(Microservices Architecture)是一种软件架构风格,它将一个大型的单体应用拆分为多个小而独立的服务,每个服务都可以独立开发、部署和扩展。
167 36
微服务架构解析:跨越传统架构的技术革命
|
8天前
|
安全 API 数据安全/隐私保护
速卖通AliExpress商品详情API接口深度解析与实战应用
速卖通(AliExpress)作为全球化电商的重要平台,提供了丰富的商品资源和便捷的购物体验。为了提升用户体验和优化商品管理,速卖通开放了API接口,其中商品详情API尤为关键。本文介绍如何获取API密钥、调用商品详情API接口,并处理API响应数据,帮助开发者和商家高效利用这些工具。通过合理规划API调用策略和确保合法合规使用,开发者可以更好地获取商品信息,优化管理和营销策略。
|
14天前
|
存储 SQL 分布式计算
大数据时代的引擎:大数据架构随记
大数据架构通常分为四层:数据采集层、数据存储层、数据计算层和数据应用层。数据采集层负责从各种源采集、清洗和转换数据,常用技术包括Flume、Sqoop和Logstash+Filebeat。数据存储层管理数据的持久性和组织,常用技术有Hadoop HDFS、HBase和Elasticsearch。数据计算层处理大规模数据集,支持离线和在线计算,如Spark SQL、Flink等。数据应用层将结果可视化或提供给第三方应用,常用工具为Tableau、Zeppelin和Superset。
162 8
|
1月前
|
存储 Linux API
深入探索Android系统架构:从内核到应用层的全面解析
本文旨在为读者提供一份详尽的Android系统架构分析,从底层的Linux内核到顶层的应用程序框架。我们将探讨Android系统的模块化设计、各层之间的交互机制以及它们如何共同协作以支持丰富多样的应用生态。通过本篇文章,开发者和爱好者可以更深入理解Android平台的工作原理,从而优化开发流程和提升应用性能。
|
2月前
|
弹性计算 持续交付 API
构建高效后端服务:微服务架构的深度解析与实践
在当今快速发展的软件行业中,构建高效、可扩展且易于维护的后端服务是每个技术团队的追求。本文将深入探讨微服务架构的核心概念、设计原则及其在实际项目中的应用,通过具体案例分析,展示如何利用微服务架构解决传统单体应用面临的挑战,提升系统的灵活性和响应速度。我们将从微服务的拆分策略、通信机制、服务发现、配置管理、以及持续集成/持续部署(CI/CD)等方面进行全面剖析,旨在为读者提供一套实用的微服务实施指南。
|
29天前
|
机器学习/深度学习 搜索推荐 API
淘宝/天猫按图搜索(拍立淘)API的深度解析与应用实践
在数字化时代,电商行业迅速发展,个性化、便捷性和高效性成为消费者新需求。淘宝/天猫推出的拍立淘API,利用图像识别技术,提供精准的购物搜索体验。本文深入探讨其原理、优势、应用场景及实现方法,助力电商技术和用户体验提升。
|
1月前
|
XML JSON JavaScript
HttpGet 请求的响应处理:获取和解析数据
HttpGet 请求的响应处理:获取和解析数据

热门文章

最新文章

推荐镜像

更多