华大基因:云计算“撬动”大基因
“云栖奖”获奖人:华大基因研发中心副总监 金鑫
作者:阿里云研究中心 田丰
中美两国均已启动“精准医疗计划”,在这个千亿美元的“蓝海市场”中,基因技术持续推动精准诊断、精准治疗产业链的蓬勃发展。两国上至政府,下至企业都在利用云计算、大数据等普惠技术加速基因医疗服务。美国谷歌云正在与遗传数据机构合作研发“谷歌基因组”项目,打造遗传分析云服务,Broad Institute遗传研究中心、哈佛、MIT都参与其中。在中国,以华大基因为龙头的基因产业群,在阿里云上开展数据研发、医疗服务、生态合作,利用基因科技造福人类。
1999年,伴随“国际人类基因组计划”中国子任务启动,华大基因正式成立,并先后完成国际人类基因组计划中国部分、国际人类单体型图计划、第一个亚洲人基因组图谱“炎黄一号”、水稻基因组计划、大熊猫基因组计划等诸多具有国际先进水平的基因组研究工作,并借助互联网平台迎来了新的发展机遇。
2015年10月,华大基因、阿里云、英特尔在第十届国际基因组学大会上宣布联手启动搭建亚太首个精准医疗开发平台。2016年4月,华大基因基于阿里云计算平台部署的BGI Online服务产品正式上线,堪称基因行业的“云应用市场”,也是中国自主研发的大规模生物信息分析云平台。华大基因研究院院长、首席科学家徐讯表示:“BGI Online将会吸引第三方应用开发者和数据分析服务厂商,将他们的应用整合到公共平台中,最终打造成为类似苹果的APP Store。”在这个“基因应用市场”中,华大基因的测序仪类似于一部智能手机,用户可以到BGI Online“下载”各种官方或第三方应用,进一步开发自己的数据解读和分析系统。BGI Online将在后续版本中引进第三方应用开发者和数据分析服务商。
随着生命科学领域数据爆炸式的增长,如何及时获取、快速分析、安全储存这些庞大的数据是研究者们急需解决的问题。BGI Online就是为此而生,它集成了高性能计算,大规模存储及安全网络互联等基础设施,支持数据的云端存储、分析、展示和交付。用户可以在BGI Online上访问自己的数据,获取标准分析结果,也可以定制个性化的数据分析方案,并与其他授权用户分享数据和成果。
在基因行业,云计算与边缘计算相辅相成。华大基因研究院副院长、信息技术中心主任方林介绍,除了基于云端的平台,华大基因也在开发整合硬件软件技术的BGI Appliance一体机,通过一体机与BGI Online的互动,为用户提供更加丰富的体验。值得一提的是,依托阿里云的弹性存储和计算优势,BGI Online不但可以满足基础科研、作物育种及临床应用等不同应用场景和模式对数据处理、存储和传输的需求,还通过使用一系列先进的数据技术,满足HIPAA法案等行业安全条例的要求。同时,使用内资服务器存储和分析敏感的基因数据,也更加符合我国《人类遗传资源管理办法》的规范。简洁易用的界面和高度安全的特性,使医生和研究者们可以把管理数据、硬件维护等繁杂的工作交给BGI Online和阿里云,从而更专注于他们要解决的科学和临床问题。
这意味着,对于科研院所、医疗机构及中小型基因行业创业公司来说,只要拥有基因数据,不必自建和维护昂贵而复杂的计算、存储平台,通过BGI Online便可以解码神秘基因背后的奥秘。全球最大的基因组学研发机构华大基因打开了基因行业这扇神秘大门,让基因行业变得“触手可及”。
华大基因的足迹遍布全球五十多个国家,业务覆盖了科技、健康、农业等多个领域,为全球伙伴提供测序服务。由于业务需求,华大基因的产业布局具有地域分布式特点,目前业务架构在全球划分为中国内地、亚太、美洲、欧洲、港澳台、日本六大板块,中国内地又分为华北、华南、华中、华东、西北五大片区。各片区依托华大基因先进的测序和检测技术、信息分析能力、生物资源、多学科结合的生物科研体系。同时,华大基因的业务服务还具有天然的在地服务属性,需要为当地的科研工作者提供生物研究服务,为当地民众提供生物科技在医疗、农业、环境等领域的应用服务,特别是疾病检测与防控等方面需要与当地医院合作,提供快速便捷的接入式服务。
基于上述核心业务场景,华大基因建立起了以数据汇聚为驱动力,数据、智能和服务协同的方式,我们将其称为“飞轮模式”。在该模式中,通过云计算大数据平台,对海量的数据样本进行采集、存储与分析,指导业务分析,形成充分的商业智能;通过商业智能,优化分析结果,通过运营与商务模式,形成新一代医疗卫生服务;将服务通过与医院等机构的合作,进行输出,应用到具体案例中,进一步积累数据与案例资源。各关键环节迭代促进,形成正相关。
在上述飞轮模式中,起点即为对数据的汇聚。对于基因数据传输来说,以往的传输方法非常落后,时间很长,很多情况下采用“移动硬盘邮寄”的方式来传送基因数据,这不仅延长了时间,对数据的安全性方面也造成了一定的隐患。而阿里云提供的云服务便可以很好的解决这个问题。其中,专线内部数据高速上传、互联网BGP高带宽可供全球客户高速、安全地上传基因数据。
华大基因尝试过基于天津和广州的超算模式,后来逐步走向云计算。对于华大基因的专家来说,超算和云的区别:第一是数据是否在线、第二是只作为科研,还是对外提供全方位服务。在云平台上,对自己的业务体系可以清晰地划分人员分工,支持对数据处理以及中下游的解析,还可以区分不同的权限,并快速向客户进行交付。对同一份数据,不同的小组需要协作,通过制订流程描述,可以在本地和远程共用。上云以后,受益于云端海量的计算资源,计算任务的排队等待时间大大缩短。目前,在华大基因内部,本地的边缘计算、云和超算,三种模式并存。目前在云上的业务,主要应用于对交付时间有要求、对多地共享有要求的业务。对于有需要的医疗机构,可以构建专有的基因数据分析平台,为不同的医院搭建属于自己的流程。对于倾向于本地处理数据的医院,可以通过构建一体机,在本地为医院服务,一体机和云通过协同发挥作用。
基因组大数据的分析和解读需要大规模计算资源做保证,与此同时,基因数据需要长期保存,为以后的分析、新型药物研发等提供数据支持。目前很多基因组研究机构通过购买大量的服务器建立自己的机房,来提高数据分析和存储能力。然而,由于基因数据经常是阶段性的产生,在实际运行中很多服务器处于闲置状态。另外,服务器都具有一定的使用年限,期限一过将进行报废处理。除此之外,场地、维护人员以及电费等也需要消耗大量的财力和物力。如何经济、高效地解决基因大数据分析和存储,是很多机构面临的首要问题。BGI Online采用的阿里云弹性数据分析平台可以实现计算资源的弹性扩展,同时方便部署基因数据分析工具,完成对基因组数据的分析和解读,无需要提前准备计算资源,在没有计算任务时也无需花费额外的成本支出。这样便很好地解决了上面这一系列的问题,使从事基因组研究及应用的个人或机构以极低的成本顺利完成大规模基因数据的处理工作。
华大基因认为,云和大数据是很天然的结合。例如,搭建在阿里云上的BGI Online去年曾在24小时内完成了1000个人全基因组外显子数据的分析,创造了基因数据分析的“深圳速度”。如果使用自有设备,设备固定、经常必须等待计算资源释放。对于基因计算这种数据和计算双密集的工作,对底层性能要求非常高。通过互联网技术,使得计算更加高速、可以面向复杂场景进行深度学习的机器代替人从事了大量工作。从这个角度看,基因计算与互联网领域具有很高的相似性;或者说,基因领域天然具有互联网基因。
BGI Online产品负责人金鑫表示,阿里云在云计算、大数据领域有丰富的经验和积累,能够满足华大基因在数据处理、隐私安全保护以及传输方面极为严苛的要求。目前华大基因在生育健康、肿瘤防治等领域的众多分析流程已经可以在BGI Online上运行。今后华大基因将携手阿里云进一步开发和完善BGI Online产品,为全球研究者和用户提供更便捷、更安全的服务。BGI Online团队也将不断引进云计算、大数据、生物信息等方面的高水平人才,不断打磨更高质量的产品。
阿里云为华大基因提供了全线的云服务产品,并且针对BGI Online平台特点在项目改造迁移中提供了强有力的技术支持和运维保障。BGI Online平台通过阿里云提供的混合云部署模式很好的解决了华大内部客户高速低延时的数据传输需求。通过阿里云节点提供的多线BGP接入,满足了全球客户高速访问的需求。同时,低成本的数据存储、弹性数据分析计算平台都很好地解决了华大基因的业务需求。
BGI Online平台的成功迁移证明了阿里云在生命科学领域的产品支持已经达到世界领先水平。借助最先进的云计算技术,BGI Online使得生物信息分析和数据管理能力变得更容易获取,极大降低了平台用户和华大的基因数据分析成本,为即将到来的基因大数据时代提供了高质量的基础设施,为精准医疗、分子育种等产业的发展打下了坚实的基础。
在通过云计算与大数据的结合,有效地形成智能后,华大基因围绕以智能分析为支撑的对外服务,将研究重点定位在三个领域:
1) 科研服务:华大基因曾完成大熊猫晶晶基因组框架图的绘制工作,这是全世界首例用短序列进行新物种测序与组装新技术完成的大型基因组序列图。该基因图谱为解答大熊猫为什么是黑眼圈;为何身为熊而不冬眠;为何对竹子情有独钟;为何体型硕大的大熊猫幼崽体重只有母亲的百分之一;未来的大熊猫是什么样子等问题奠定了基础。大熊猫基因组的研究填补了大熊猫基因组及分子生物学研究的空白,从基因组学的层面上为濒临物种保护、疾病的监控及其人工繁殖提供了科学依据。
2) 医学服务:过去因为技术和成本的限制,除了身高体重、生化、B超CT等数据,医疗行业中基因数据很少被使用。近年来,华大基因医学检测板块提供了贯穿整个生命周期的检测服务,涉及生育健康、遗传病、血液病、病原微生物、肿瘤等领域的检测服务。生育健康相关检测形成贯穿生命发生、孕育、出生与成长过程的遗传病、不孕不育疾病的筛查与诊断技术体系。例如,针对我国南方地区高发的的遗传病地中海贫血,通过基因检测技术,并结合专业的生物信息分析软件,能准确检测出地中海贫血型别,为临床检测和大规模的地贫基因筛查提供支持。
3) 人人服务:根据基因,对人的潜在特质、身体状态与擅长点进行挖掘与分析,进行健康管理。例如基因可以一定程度上用于解答人体的运动天赋差异,运动后流汗会令铁质流失,拥有基因高危版的人士容易贫血、疲累及体力不足,进而影响运动表现,出现不良反映。而运动能力的强弱,也是因为自身基因决定了身体的机能强弱不同。我们可以通过基因检测,来了解自身的耐力、抗疲劳力、速度和力量等,更好的制定适合自己的运动策略。
在进行技术平台建设及基因技术的突破创新的基础上,华大基因还坚持以自主知识产权为主导的业界生态合作。
华大基因认为,目前的基因技术,中国和国际先进水平处于同一个水平线,在部分应用方面甚至领先。比如无创唐氏基因检测,在美国为约2000美元,在中国为不到2000人民币,这一低成本的原因来源于中国具有自主知识产权。在2007年,全球有自己完整基因数据的人不超过10个,现在是百万人。如果有自己的基因数据,很多基因数据可以辅助医疗。在其研发过程中,华大基因不断突破技术壁垒,持续获得关键技术和核心应用的自主知识产权,华大基因2016年在武汉发布了测序应用整体解决方案BGISEQ-500n,这是全球测序技术领域首次大批量列装“中国造”,标志着中国在高端测序技术的源头创新和上下游协同发展的突破及引领。BGISEQ-500是由华大基因自主研发的桌面型高通量测序系统,具备精准、简易、快速、灵活、经济等特点,单项应用最快可在24小时内完成,针对个人基因组检测精度可达99.99%,充分满足科研和临床领域的不同测序需求,在测序准确度、一致性等关键指标上达到甚至超过成熟商业测序系统。
为了更好的践行“基因科技造福人类”的愿景,华大基因与阿里云及Intel联手推出了2020计划,希望在2020年,一天之内完成一个人的基因测序、分析、报告。这一战略的基础,一方面是云上海量的资源,另一方面是测序核心技术的突破。实现这一战略,一方面力量来源于个人,一方面来源于政府。从个人角度,每个人都为自己有健康医疗的诉求。从政府,基因数据是非常重要的因素,是国家战略资源。
基因的奥秘正在云端一步一步解开,华大基因股份有限公司CEO尹烨说:“我们的目标是使用自主知识产权的测序仪和云端分析平台,在24小时内完成一个人从全基因组测序、分析到解读的全过程。虽然面临着不小的挑战,但生命的价值值得我们为之努力。这样的努力势必会使中国在未来数十年在生命科学、生物产业获得持续增长的强劲动力。”