拥有世界一流的科研队伍,开展一系列重要动植物、人类健康、生物能源的基因组研究,致力于人类健康服务事业和科技应用领域的发展。
互联网社会,我们接触到的数字化信息越来越多。正如美国麻省理工学院教授、媒体实验室的创办人、被媒体誉为“未来学家”的尼葛洛庞帝在《数字化生存》中所说,“信息的DNA”正在迅速取代原子而成为人类生活中的基本交换物。
无论何时,我们的身边都充斥着大数据。大盘涨跌几个点,背后是一支支红的绿的股票在起伏;出门前看看天气预报,才好决定要不要带伞;和朋友吃饭点开大众点评看看最受欢迎的餐厅和菜式;在网上买个东西,淘宝还会根据你的搜索和购买记录“猜你喜欢”……数字化已渐渐改变我们的生活方式和行为习惯,润物细无声。
除了这些“身外之物”,每时每刻,我们身体里的数据,也在反映着我们的健康状况。23对染色体,2万多个基因,30亿对碱基,千亿个神经元,无数细胞每分每秒都在经历着自我更替……我们的健康由此决定,了解更多,也就更能把握健康。
大数据的作用范围越来越广。想过社交网络能够对流行病进行监控么?据奇点网报道,Twitter曾被芝加哥公共卫生部(CDPH)用来确定食源性疾病爆发的案件,CDPH与Smart Chicago合作开发了一款能对有关食物中毒的Twitter消息进行分析的应用,据此,CDPH对芝加哥的违规食品企业进行了规范整顿。
无独有偶,纽约市健康与心理卫生部(DHMH)与哥伦比亚大学、商铺点评网站Yelp进行合作,对Yelp上有关食源性疾病的点评信息进行分析,根据结果预测疾病爆发情况。
当然,这些结果目前只能作为辅助预测信息,大数据更特别的应用,还在更为直接的健康应用上。
每个生命体都是大数据。人的基因组有约30亿对碱基,以一个Byte储存一对碱基来算,每个人有3GB左右的数据量(via www.OnlineEducation.net)。觉得不多?其实一个人基因组检测的原始数据就有好几百GB,再加上蛋白质等好几个TB才能够完成一个人的数据。即使按一个人1TB的数据量来算,全球人的基因组加起来就有约7万亿GB的数据量。而且,和我们同在的不止是我们自己,还有十倍于我们细胞数量的微生物,我们的地球上还有许多的动物、植物、微生物......地球生命的基因组数据量不可估计,且绝对远大于互联网数据量——据美国市场研究公司IDC预测,到2020年时,全球互联网数据总储存量才达到40万亿GB。
正如世界上没有两片完全一样的树叶,一个人不可能两次踏进同一条河里的道理一样,每个人的基因组信息都是独一无二的,甚至每个人在不同时刻的基因组信息都可能有差异。基因组信息的测序和生命密码的解读,会帮助我们了解基因状况,防治疾病。
从统计学角度来说,只有收集大量的数据,才能从中分析出规律。疾病预知、健康管理同样需要大数据的支持,只有基于大范围的数据比对,才能知道某个人的基因变异是否是致病原因。因此,只有在收集多数人的基因组信息基础上,才能更为准确地了解基因与疾病的关系,及如何做好未病先防。
智能家居的概念越来越热,将所有设备连接起来,用手机或某个智能设备来控制,似乎成了便捷生活的代名词。设想一下,如果将所有人的生物信息放在可以互相连通的平台上,形成“基因网络”,通过对这些生命大数据的比对分析,将对健康管理大有助益。
而这依赖于基因组学在全球的大力发展。2012年英国宣布启动“10万基因组计划”,去年又从政府和私人渠道获得了3亿英镑的资金注入,目的是为了根据基因组学和临床数据制定个性化治疗方案。今年奥巴马政府提出投资2.15亿美金用于美国100万名志愿者的基因测序项目,希望将各大机构或企业已有的数据进行整合,便于医生发现病因、研究人员了解致病因素,并开发有针对性的基因靶向药物。华大基因的标志性项目之一百万基因组计划也将扩大范围。该项目旨在对百万人群、百万种动植物和百万微生态进行基因组测序。
现有的医疗系统也正在改革。国外已经有企业与机构开展电子病历改革计划,比如获得谷歌风投的Flatiron Health,计划整合美国肿瘤治疗中心所有临床数据,为医生出具医疗方案提供参考。IBM的人工智能系统Watson则与Memorial Sloan kettering 肿瘤中心展开合作,整理分析论文、临床数据、文本,并生成分析结果及治疗方案供医生决策参考。
每个现代人都需要健康管理。据《新英格兰医学杂志》分析,近100年来,慢性病(癌症、心脏病等)、老年病对人类健康的影响越来越大。据《2014中国卫生和计划生育统计年鉴》显示,2013年,糖尿病发病率是35.1‰,2003年,这个数据只是5.6‰,十年来发病率增长了6倍;2013年高血压发病率是142.5‰,2003年这个数据只有26.2‰,十年来发病率增长了4倍。
一些慢性疾病的发生其实可以避免,令人遗憾的出生缺陷也可以避免。基因技术可以帮助我们早期发现慢性病、遗传病、肿瘤,通过婚前、孕前、产前基因检测,能够控制出生缺陷(比如21号染色体多出一条导致的唐氏综合征,在孕早期即可通过检测孕妇血液中的胎儿游离DNA片段发现异常),对于肿瘤等已患疾病,可以通过靶向药物和化疗药物用药指导检测,辅助医生指导用药,已达到更好的治疗效果。
当然,对于数字化的人生,许多人还有顾虑——数据泄露怎么办?数据平台的安全性,会是这一成果普及的重要前提。但技术本身无所谓对错,我们怎样使用它才是结果好坏的决定因素。也有人担心,数字化会带来人的异化,我们会被我们制造出来的东西左右,或是生存方式虚拟化。担心源自关心,但过分担忧往往无益。科技的发展有伦理的制约,相信科学家会平衡探索与自律的关系。我们要做的,是利用技术带来的好处,对自己和家人的健康负责。
原文发布时间为:2015-06-23
本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号