谷歌推人类基因组保存服务

简介:

只需25美元,谷歌就可以把你的基因组储存在云端。


数百万人的基因组数据将会带来医学上的新发现并可以提高医疗诊断水平。谷歌正就一个新项目与医院和大学展开合作。有基因组吗?我们来帮你保存。


搜索引擎巨头的第一个DNA产品就是谷歌基因组(Google Genomics),这是谷歌在去年3月推出的一项云端服务,但随后由于没有大规模的推广而未引起人们的注意,就像上个月谷歌发布的那个看起来遥不可及的用纳米药丸对抗癌症的计划一样。


谷歌基因组可以证明它比任何一项月球探测计划都重要得多。对数以千计乃至数以万计的基因组进行对比分析将会在未来十来带来医学上的新发现。谁来储存基因数据这个问题已经演变成了亚马逊、谷歌、IBM和微软之间的竞争。


谷歌在18个月以前就开始着手建立谷歌基因组了,包括会见科学家,以及搭建界面和应用程序接口,方便这些科学家将DNA数据转移到谷歌的服务器集群上,而科学家可以使用这个囊括了数十亿互联网用户和网页索引的数据库进行实验。

“生物学家可以通过我们的服务从对一个基因组进行研究升级到对数百万个基因组进行研究,”曾经是Google+(社交网站)平台工程主管的谷歌基因组项目软件工程师大卫·格雷泽(David Glazer)说道,“我们的机遇就是如何通过这项突破性的数据技术来帮助他们实现这种转换。”


尽管有些科学家认为谷歌的服务对于复杂的基因组数据来说不过是杯水车薪,但还是有不少科学家对此进行了肯定。斯坦福大学的生物信息学专家阿图尔·巴特(Atul Butte)在今年对谷歌的这一计划进行了详细了解之后,就表示“这就像是传统旅行社在看到Expedia(全球最大的在线旅游公司)时的感觉一样”。


由于实验室使用了新型而且处理速度更快的设备进行DNA解码,所获得的数据爆炸性增多。例如,马萨诸塞州的剑桥伯德研究所(Broad Institute in Cambridge)称,在今年10月,他们相当于每32分钟解码一个人类基因组,所产生的原始数据高达200TB。


虽然这样的数据流与大型互联网公司所处理的数据相去甚远(伯德研究所两个月所产生的数据与YouTube一天的数据上传量相仿),但却远远超过了生物学家所处理的所有数据。就目前情况而言,此类数据的存储和访问通常通过大型的商业数据中心来实现。美国国家癌症研究所在上月曾表示将耗资1900万美元将2.6PB的癌症基因组图谱的副本存储到云端,这些来自数千癌症患者的数据的副本将会存储到谷歌基因组和亚马逊的数据中心。


西雅图系统生物学研究所(Institute for Systems Biology)的科学家希拉雷诺兹(Sheila Reynolds)指出,希望能创建一个“癌症基因组数据云”,让科学家可以像网页搜索那样快捷便利地分享信息进行模拟实验,“毕竟不是每个人都有下载PB级数据或者进行PB级数据处理的能力,”她说道。


谷歌和亚马逊已经就DNA数据向云端转移的费用进行了为期一年的价格战。谷歌表示每个基因组的年存储费为25美元,而处理这些数据还需要支付额外的费用。目前一个人类基因组在解码之后的原始数据大小在100GB左右,不过该数据还可压缩至1GB以下,谷歌对此类数据的云端储存价格仅为每年0.25美元。


云存储服务推动了诸如Tute Genomics、DNANexus、Seven Bridges和NextCode Health等初创公司的发展。这些公司均推出了医院和科学家用于检索基因数据的“浏览器”。 “谷歌和亚马逊提供的是后台服务,他们对我们说,‘嗨,你可以在我们这成立基因公司,’”,Seven Bridges的首席执行官德尼兹·库鲁尔(Deniz Kural)介绍说,这家公司在亚马逊的云端储存着1600位研究人员的基因组数据。


德尼兹•库鲁尔指出,重点在于今后医学或将依赖于某种“全球DNA网络”,医生将可以在这个网络中搜索他需要的内容。“根据我们的预测,假如我在未来身患肺癌,那么医生就会对我的基因组和肿瘤基因组进行测序,然后将对应的数据与数据库中的5000万组数据进行对比,”他说道,“结果就是‘嗨,治疗你的药物在这呢。’”


谷歌的格雷泽介绍说,谷歌基因组项目启动时生物学数据产出正从“作坊式”向“工业化规模”转变。目前他本人也在学习遗传学方面的知识,正在听伯德研究所主管埃里克·兰德(Eric Lander)主讲的在线课程――生物学概述。此外他也将自己的基因序列数据放在了谷歌的云端。


格雷泽并未谈及谷歌基因组项目的规模以及目前的客户数量,只是透露称目前谷歌服务器上已经保存有至少3500组来自公共项目的基因组。他还指出该项目与谷歌在近期大力投入的保健类项目(例如谷歌在今年启动的研究如何延长人类寿命的项目Calico)暂无关联。“只有人们能逐渐认识到科学技术可以推进生命科学研究时才能将二者关联起来,” 格雷泽这样说道。


负责管理斯坦福大学内最大的遗传数据计算机集群的物理学家索马里·达塔(Somalee Datta)表示,由于谷歌和亚马逊在近期都下调了价格,其存储成本已经降至与他们自己的数据中心的存储成本相似的水平。“价格最终会降到一个合理的水平,我们认为云储存的价格还会继续下降,”她说道。


达塔介绍说,一些斯坦福的科学家已经开始使用谷歌的BigQuery数据库系统,格雷泽团队已经使该系统与基因组相兼容。这个系统最初是为了分析垃圾邮件、网页文档以及消费品购买等数据而开发的,但其也同样能够帮助科学家进行数以千计乃至数以万计的大型基因组对比实验。“有时候科学家就是要做一些比较疯狂的事情,那么你就需要具有一定的数据处理能力,” 格雷泽说道,“这个系统就具备这种能力,所以我认为这正是能够解决新问题的技术。”


原文发布时间为:2014-12-02

本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

相关文章
|
移动开发 JSON 监控
网络协议解析:在员工上网监控软件中实现HTTP流量分析
随着企业对员工网络活动的监控需求不断增加,开发一套能够实现HTTP流量分析的网络协议解析系统变得愈发重要。本文将深入探讨如何在员工上网监控软件中实现HTTP流量分析,通过代码示例演示关键步骤。
358 0
|
11月前
|
人工智能 安全 大数据
CDGA|数据要素与数据安全:携手构建可信数据生态的深远探讨
数据要素与数据安全是数字经济时代不可分割的双生子。只有在保障数据安全的前提下,才能充分发挥数据要素的价值,推动数字经济持续健康发展。构建可信数据生态,需要政府、企业、社会组织及广大公众的共同努力,形成合力,共同应对挑战,共创数字经济的美好未来。
|
分布式计算 C语言 Python
基于Python实现MapReduce
一、什么是MapReduce 首先,将这个单词分解为Map、Reduce。 • Map阶段:在这个阶段,输入数据集被分割成小块,并由多个Map任务处理。每个Map任务将输入数据映射为一系列(key, value)对,并生成中间结果。 • Reduce阶段:在这个阶段,中间结果被重新分组和排序,以便相同key的中间结果被传递到同一个Reduce任务。每个Reduce任务将具有相同key的中间结果合并、计算,并生成最终的输出。
|
JavaScript API 开发工具
记一次后台管理脚手架选型过程
面对大屏支持不足的vue移动端项目,业务部门要求改进。原项目优化困难,决定重构。选型阶段,因业务类似后台管理,选择vue框架。在git和gitee上对比了两款脚手架,最终选定[ pure-admin-thin ](https://github.com/pure-admin/pure-admin-thin)因其频繁更新、先进框架和丰富文档。选型关键在于资料易得性、框架时效性和维护者信誉。欢迎评论区提供反馈和建议。
306 1
|
小程序 安全 数据挖掘
陪玩语聊APP小程序定制开发模块功能
随着电竞行业的规范化,游戏陪玩软件兴起,提供专业陪玩服务。核心功能包括:多样化注册登录、用户资料展示、智能匹配筛选陪玩、语音互动(多人/私聊)、订单交易管理、陪玩入驻审核、数据分析、客服系统及社交功能。旨在融合游戏、语音聊天与社交,构建综合娱乐平台。
|
存储 安全 芯片
阿里云网盘与相册问题之MAC电脑是否支持挂载盘
阿里云网盘与相册是阿里云提供的云存储服务,用户可以安全便捷地存储和管理个人文件、照片等数据;本合集将介绍如何使用阿里云网盘和相册服务,包括文件上传、同步、分享,以及处理常见使用问题的技巧。
351 1
|
C++
【PTA】​L1-005 考试座位号​ (C++)
【PTA】​L1-005 考试座位号​ (C++)
354 0
【PTA】​L1-005 考试座位号​ (C++)
|
数据安全/隐私保护
若依框架---为什么把添加和更新分成两个接口
若依框架---为什么把添加和更新分成两个接口
352 0
|
存储 网络协议 Unix
socket | 网络套接字、网络字节序、sockaddr结构
socket | 网络套接字、网络字节序、sockaddr结构
223 0
|
测试技术 Android开发
Fiddler服务器响应数据有乱码,怎么办?一文讲清
Fiddler服务器响应数据有乱码,怎么办?一文讲清
541 0