[Google] Baseline工程把基因大数据化

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:

0.jpg

Google 在下一盘大棋。


纵观几年,谷歌苹果三星微软几家巨头在健康领域投入越来越大,势头愈加生猛。据华尔街日报报道,紧接无人驾驶汽车,隐形眼镜式血糖仪,高原气球网络服务,Google俨然开始了一项自公司成立以来最具野心,最为困难的科学项目,一个“登月”工程。Google X 实验室开始了 Baseline“基线”项目,大量收集人类基因组标本并利用大数据合成一份完美的健康人类基因图谱,为多种疾病的提早发现及治疗提供前提。


基线工程的第一步是采集175个参与者的匿名基因和分子信息,取样包括基因排序,血液,唾液,眼泪,尿液,以及参与者的食物及药物代谢信息,心率,家族病史等,第一波测量过后,参与者将佩戴可穿戴测量设备,持续提供体征信息。Google将通过第三方的隐私过滤得到匿名的基因组信息。下一步将把实验群体扩大到数千人,获得更多更广的基因数据。


项目领导者分子生物学家安德鲁·康拉德(Andrew Conrad)2013年3月加盟Google,现在已经建立起了一支70-100人的队伍,包括生理,生物化学,成像和细胞生物学的专家。康拉德认为基线工程处在刚刚起步阶段,基因图谱的制作和分析是一项极其艰难的工作,我们对于DNA,蛋白,酶类间的相互关系和外界的影响知之甚少,但随着掌握的数据量增多,依赖Google 强大的大数据计算能力,研究者们可以从海量的基因组数据中获得生物标记(biomarker)的规律,而这些生物标记将对预防,治疗,制药领域产生强大的引领和促进作用。


举例来说,每个人对于食物脂肪的代谢功能都是不一样的,部分人的基因组中缺乏帮助人体代谢多余食物脂肪的生物标记,从而导致早年的心血管疾病,通过数据收集,研究者们可以准确的定位生物标记在基因中的位置,确定新病人是否缺乏这段标记,及时做出准确的治疗和饮食推荐。大量减少心血管疾病的发生。

1052385s5czvzsc2dzncdc.jpg

既然基因组的作用如此强大,在Google之前为什么没有人开始同样的收集工作呢?原因很简单,没钱没时间。人类的基因组及其庞大,一个基因组由十万以上的基因分段组成,每个基因段又由成百上千个核苷酸配对组成,放在几十年前,受集一份整套的基因组的工作量是不可想象的。2001年,第一份基因组才被排序成功,而在十年前,单单一份基因排序需要一亿美金,随着排序技术的发展,如今只需要1000美金就可以完成。但一般的公司和个人还是支付不起系统性收集基因组的。记着之前在学校学起DNA排序时,十分激动的问生物老师我们要是收集几万人的DNA后通过大数据岂不是可以把人体的秘密通通展现出来,老师淡然一笑:好想法,你有钱吗?


我没有,但是Google财大气出,魄力十足。


有人可能会好奇当今基因排序技术的准确度,老实说,不是很高,Emory大学的神经学系主任Allan Levey在讲座中劝告听众不要盲目花钱做基因排序,提到一位老友的故事:50岁后这位仁兄去做了一个基因排序以防基因病来得错手不急,结果发现他的APP基因突变了,这个基因突变理论上必然导致老年痴呆症(Alzheimer’sDisease),结果老兄丧气地找到Levey 教授寻求解释,经过一番测试后发现他已经过了开始发病年龄却一点症状没有,后来发现是基因排序出了差错。这类事件时有发生,但是终归是针对个人案例的。大数据的绝对优点就是海量数据弥补个别差错。或许基线工程的第一波实验结果会出现不准确的风险,但是几年后,当实验群扩张到千人甚至万人的时候,通过计算足以剔除DNA中的大量无用分段和错误信息,将研究者的目光直接导向致病的基因段。人类的健康基因图谱将得到越来越多的完善,接近完美。


那么关于老生常谈的隐私问题呢?Google 已经建立起当今世界上最为强大的电脑和信息网络来支撑搜索引擎和YouTube这样强劲的数据捕获手段,今年年底又要利用安卓涉足穿戴式设备领域,数据的掌控量之恐怖,自然会让我们不放心Google获得大量的基因组数据。康拉德在采访中提到Google将与斯坦福和杜克大学的医学院合作,两个大学将把基线工程参与者的身份信息抹掉,把匿名数据交给Google,听起来让人稍稍安心一些,但仔细想想,那些被抹掉的也只是参与者的信息,Google获得的却是人类身体中最为珍贵的秘密,如果Google不将这些计算后的结果公开,而单独和几家制药公司分享,我们作为普通老百姓可能一点办法没有,任由巨头们把我们的弱点和需求看个透。


Google创始人之一拉里佩奇(Larry Page) 多次提到大数据在健康和医药领域的巨大潜能,常常不忿隐私法律对于人体数据获取的制约,现在来看,Google可能在建立一个独立的庞大数据池,仅供自己所用,直接绕过隐私法获得数据,为其数据计算能力找到了新的用武之地。我们只能寄希望于斯坦福和杜克为大众把好隐私关,制约Google的数据用法和走向。


Google在让我们更清晰的了解自己身体秘密的同时,是否正在将我们趋向一个没有隐私的时代,我们不得而知,只能猜想和等待。


原文发布时间为:2014-07-28

本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
2月前
|
SQL 存储 人工智能
Google BigQuery深度解析:云端大数据分析服务的威力
【4月更文挑战第8天】本文是关于Google Cloud Platform的BigQuery在大数据和云技术领域的应用分析。BigQuery的核心特性包括无服务器、全托管架构,实现高性能的超大规模并行处理,并严格遵循安全与合规标准。在实战应用中,它用于数据湖分析、机器学习与AI,以及实时数据分析与BI。BigQuery的极致性能、易用性和与GCP生态的整合,使其成为云端大数据分析的强大工具,适用于各种行业场景,帮助企业释放数据价值。作者将持续分享相关技巧和最佳实践。
218 0
|
2月前
|
存储 弹性计算 大数据
【云计算与大数据技术】Google、亚马逊、IBM、阿里云等云计算应用平台介绍讲解(超详细)
【云计算与大数据技术】Google、亚马逊、IBM、阿里云等云计算应用平台介绍讲解(超详细)
292 0
|
人工智能 运维 Cloud Native
SREWorks云原生数智运维工程实践-SREWorks 介绍篇-阿里云原生大数据运维平台SREWorks正式开源(上)
SREWorks云原生数智运维工程实践-SREWorks 介绍篇-阿里云原生大数据运维平台SREWorks正式开源
251 0
|
人工智能 运维 Cloud Native
|
人工智能 运维 分布式计算
SREWorks云原生数智运维工程实践-SREWorks 介绍篇-阿里云原生大数据运维平台SREWorks正式开源(下)
SREWorks云原生数智运维工程实践-SREWorks 介绍篇-阿里云原生大数据运维平台SREWorks正式开源
201 0
|
存储 缓存 负载均衡
大数据理论篇HDFS的基石——Google File System(二)
Google File System 但凡是要开始讲大数据的,都绕不开最初的Google三驾马车:Google File System(GFS), MapReduce,BigTable。 为这一切的基础的Google File System,不但没有任何倒台的迹象,还在不断的演化,事实上支撑着Google这个庞大的互联网公司的一切计算。 以下是原文内容,内容较长,建议详细阅读。
223 0
大数据理论篇HDFS的基石——Google File System(二)
|
存储 缓存 监控
大数据理论篇HDFS的基石——Google File System(一)
Google File System 但凡是要开始讲大数据的,都绕不开最初的Google三驾马车:Google File System(GFS), MapReduce,BigTable。 为这一切的基础的Google File System,不但没有任何倒台的迹象,还在不断的演化,事实上支撑着Google这个庞大的互联网公司的一切计算。 以下是原文内容,内容较长,建议详细阅读。
556 0
大数据理论篇HDFS的基石——Google File System(一)
|
存储 分布式计算 监控
实时计算大数据处理的基石-Google Dataflow
简要回顾一下,上一篇我们介绍了Streaming,批量与流式计算,正确性与推理时间的工具,数据处理模式,事件事件与处理时间,窗口化。 在这篇文章中,我想进一步关注上次的数据处理模式,但更详细。 这里会用到一些Google Cloud Dataflow[1]的代码片段,这是谷歌的一个框架,类似于Spark Streaming或Storm。
417 0
实时计算大数据处理的基石-Google Dataflow
|
监控 IDE 算法
Google 的工程实践对初创公司有用吗?
“尊重工艺”是 Instawork 工程团队的一项指导原则。它鼓励我们以学习的态度去看待软件的工艺。为了这个目的,我在去年建立了“工程图书俱乐部”,以帮助我们从行业中的优秀企业和优秀人才汲取经验。我们的阅读的第一本图书是 Software Engineering at Google(暂无中文版:《谷歌的软件工程》)。我们很想了解谷歌是如何以巨大的规模进行软件开发的:数十亿行的代码,成千上万的开发人员。他们的任何做法是否适合像我们这样的小型团队?
107 0
Google 的工程实践对初创公司有用吗?
|
存储 弹性计算 大数据
基因大数据:一面是科技,一面是责任
基因大数据,一面是科技,一面是责任。以基因科技为核心,为行业提供“存、传、算、用”全栈式解决方案,用数据智慧为精准医疗保驾护航。
249 0
基因大数据:一面是科技,一面是责任