[Google] Baseline工程把基因大数据化

简介:

0.jpg

Google 在下一盘大棋。


纵观几年,谷歌苹果三星微软几家巨头在健康领域投入越来越大,势头愈加生猛。据华尔街日报报道,紧接无人驾驶汽车,隐形眼镜式血糖仪,高原气球网络服务,Google俨然开始了一项自公司成立以来最具野心,最为困难的科学项目,一个“登月”工程。Google X 实验室开始了 Baseline“基线”项目,大量收集人类基因组标本并利用大数据合成一份完美的健康人类基因图谱,为多种疾病的提早发现及治疗提供前提。


基线工程的第一步是采集175个参与者的匿名基因和分子信息,取样包括基因排序,血液,唾液,眼泪,尿液,以及参与者的食物及药物代谢信息,心率,家族病史等,第一波测量过后,参与者将佩戴可穿戴测量设备,持续提供体征信息。Google将通过第三方的隐私过滤得到匿名的基因组信息。下一步将把实验群体扩大到数千人,获得更多更广的基因数据。


项目领导者分子生物学家安德鲁·康拉德(Andrew Conrad)2013年3月加盟Google,现在已经建立起了一支70-100人的队伍,包括生理,生物化学,成像和细胞生物学的专家。康拉德认为基线工程处在刚刚起步阶段,基因图谱的制作和分析是一项极其艰难的工作,我们对于DNA,蛋白,酶类间的相互关系和外界的影响知之甚少,但随着掌握的数据量增多,依赖Google 强大的大数据计算能力,研究者们可以从海量的基因组数据中获得生物标记(biomarker)的规律,而这些生物标记将对预防,治疗,制药领域产生强大的引领和促进作用。


举例来说,每个人对于食物脂肪的代谢功能都是不一样的,部分人的基因组中缺乏帮助人体代谢多余食物脂肪的生物标记,从而导致早年的心血管疾病,通过数据收集,研究者们可以准确的定位生物标记在基因中的位置,确定新病人是否缺乏这段标记,及时做出准确的治疗和饮食推荐。大量减少心血管疾病的发生。

1052385s5czvzsc2dzncdc.jpg

既然基因组的作用如此强大,在Google之前为什么没有人开始同样的收集工作呢?原因很简单,没钱没时间。人类的基因组及其庞大,一个基因组由十万以上的基因分段组成,每个基因段又由成百上千个核苷酸配对组成,放在几十年前,受集一份整套的基因组的工作量是不可想象的。2001年,第一份基因组才被排序成功,而在十年前,单单一份基因排序需要一亿美金,随着排序技术的发展,如今只需要1000美金就可以完成。但一般的公司和个人还是支付不起系统性收集基因组的。记着之前在学校学起DNA排序时,十分激动的问生物老师我们要是收集几万人的DNA后通过大数据岂不是可以把人体的秘密通通展现出来,老师淡然一笑:好想法,你有钱吗?


我没有,但是Google财大气出,魄力十足。


有人可能会好奇当今基因排序技术的准确度,老实说,不是很高,Emory大学的神经学系主任Allan Levey在讲座中劝告听众不要盲目花钱做基因排序,提到一位老友的故事:50岁后这位仁兄去做了一个基因排序以防基因病来得错手不急,结果发现他的APP基因突变了,这个基因突变理论上必然导致老年痴呆症(Alzheimer’sDisease),结果老兄丧气地找到Levey 教授寻求解释,经过一番测试后发现他已经过了开始发病年龄却一点症状没有,后来发现是基因排序出了差错。这类事件时有发生,但是终归是针对个人案例的。大数据的绝对优点就是海量数据弥补个别差错。或许基线工程的第一波实验结果会出现不准确的风险,但是几年后,当实验群扩张到千人甚至万人的时候,通过计算足以剔除DNA中的大量无用分段和错误信息,将研究者的目光直接导向致病的基因段。人类的健康基因图谱将得到越来越多的完善,接近完美。


那么关于老生常谈的隐私问题呢?Google 已经建立起当今世界上最为强大的电脑和信息网络来支撑搜索引擎和YouTube这样强劲的数据捕获手段,今年年底又要利用安卓涉足穿戴式设备领域,数据的掌控量之恐怖,自然会让我们不放心Google获得大量的基因组数据。康拉德在采访中提到Google将与斯坦福和杜克大学的医学院合作,两个大学将把基线工程参与者的身份信息抹掉,把匿名数据交给Google,听起来让人稍稍安心一些,但仔细想想,那些被抹掉的也只是参与者的信息,Google获得的却是人类身体中最为珍贵的秘密,如果Google不将这些计算后的结果公开,而单独和几家制药公司分享,我们作为普通老百姓可能一点办法没有,任由巨头们把我们的弱点和需求看个透。


Google创始人之一拉里佩奇(Larry Page) 多次提到大数据在健康和医药领域的巨大潜能,常常不忿隐私法律对于人体数据获取的制约,现在来看,Google可能在建立一个独立的庞大数据池,仅供自己所用,直接绕过隐私法获得数据,为其数据计算能力找到了新的用武之地。我们只能寄希望于斯坦福和杜克为大众把好隐私关,制约Google的数据用法和走向。


Google在让我们更清晰的了解自己身体秘密的同时,是否正在将我们趋向一个没有隐私的时代,我们不得而知,只能猜想和等待。


原文发布时间为:2014-07-28

本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
11月前
|
人工智能 运维 Cloud Native
SREWorks云原生数智运维工程实践-SREWorks 介绍篇-阿里云原生大数据运维平台SREWorks正式开源(上)
SREWorks云原生数智运维工程实践-SREWorks 介绍篇-阿里云原生大数据运维平台SREWorks正式开源
192 0
|
11月前
|
人工智能 运维 Cloud Native
|
11月前
|
人工智能 运维 分布式计算
SREWorks云原生数智运维工程实践-SREWorks 介绍篇-阿里云原生大数据运维平台SREWorks正式开源(下)
SREWorks云原生数智运维工程实践-SREWorks 介绍篇-阿里云原生大数据运维平台SREWorks正式开源
164 0
|
存储 缓存 负载均衡
大数据理论篇HDFS的基石——Google File System(二)
Google File System 但凡是要开始讲大数据的,都绕不开最初的Google三驾马车:Google File System(GFS), MapReduce,BigTable。 为这一切的基础的Google File System,不但没有任何倒台的迹象,还在不断的演化,事实上支撑着Google这个庞大的互联网公司的一切计算。 以下是原文内容,内容较长,建议详细阅读。
210 0
大数据理论篇HDFS的基石——Google File System(二)
|
存储 缓存 监控
大数据理论篇HDFS的基石——Google File System(一)
Google File System 但凡是要开始讲大数据的,都绕不开最初的Google三驾马车:Google File System(GFS), MapReduce,BigTable。 为这一切的基础的Google File System,不但没有任何倒台的迹象,还在不断的演化,事实上支撑着Google这个庞大的互联网公司的一切计算。 以下是原文内容,内容较长,建议详细阅读。
490 0
大数据理论篇HDFS的基石——Google File System(一)
|
人工智能 供应链 安全
D1net阅闻 | 大数据系统软件国家工程实验室批复成立
D1net阅闻 | 大数据系统软件国家工程实验室批复成立
113 0
|
云安全 存储 人工智能
阿里云认证对大数据工程技术人员的意义
近年来,随着经济社会发展、科学技术进步和产业结构调整,新产业、新业态、新模式滋生孕育出许多新职业。大数据技术应用在各行各业的全面展开,我国社会需要越来越多的大数据工程技术人员。其职业定义和工作任务如下:
211 0
阿里云认证对大数据工程技术人员的意义
|
机器学习/深度学习 存储 人工智能
大数据和人工智能工程上的一些点
大数据 大数据这个词最早出现在上世纪90年代的美国,直到2012年后才火起来。大数据没有一个明确的概念,之所以称之为大是因为数据量太大超过了单台计算机的资源,这时就需要分布式的数据处理工具,以便能在用户可容忍的时间内进行数据处理。大数据从业人员肯定会去了解谷歌的mapreduce论文和hadoop开源工具。然而海量数据本来是静态,只有通过对数据进行分析和利用才能让数据产生价值。正所谓量变产生质变。 人工智能 人工智能在1956年的达特茅斯会议上被提出来,它研究的是如何制造智能机器或模拟人类的智能行为。大数据与人工智能之间可以说是相辅相成,人工智能的基础是数据,而数据的利用又离不开人工智能。各
139 0
|
大数据 项目管理
贵州理工学院阿里云大数据工程训练营
《数据工程训练营》是根据目前大数据行业的需求,利用实际的企业案例结合OBE教育理念倾力打造,分为技术学习、案例分析、在线考核、创新实践四部分。结合多个场景化行业案例,训练营完全仿真企业开发流程,从团队建设、知识应用、自主学习等对学生进行全方位的实践训练。通过训练营,学生能够学到项目管理、项目开发及实践等知识,培养大数据分析能力、协作能力、自主学习能力,具备解决一般复杂度工程问题的能力。
274 0
贵州理工学院阿里云大数据工程训练营

热门文章

最新文章