**第0章
引 言
这是数据。
―Jim Gray**
回到20世纪60年代,我的高中学校在重要比赛之前都会召开动员大会。在一次动员大会中,橄榄球队的教练扛着一大箱的电脑纸走到舞台中央,每张纸折叠着与下一张相接,并打上孔串了起来。这位教练宣布校队所有成员的竞技能力已经被存储到学校的电脑中(很幸运,当时我们有自己的IBM-360主机),同样,竞争对手的数据也被存储到这台计算机中。我们指示这台计算机消化这些信息,并给出能赢下当年感恩节比赛的队名。于是这台计算机就吐出了前面提到的那一箱电脑纸,最后一张纸显示我们将赢得比赛。第二天,我们遭遇了在年复一年的竞争中的又一次可耻的失败。
让时间快进到大约50年前,马里兰州贝塞斯达国家癌症研究中心会议室,我正在听取一位女性顶级科学管理员讲述过去十年癌症研究的快速发展。她表明,当时最好的研究计划是多机构的和数据密集型的。那些受到资助的研究人员当时使用高通量分子方法,在短短几分钟内就能为每个组织样本产生堆积如山的数据,而当时能想到的只有一种解决方法,就是依靠超级计算机和一批聪明的程序员,他们可以分析这些数据并告诉我们这些数据背后的含义。
与我高中那位教练想的一样,美国国家健康研究院(NIH)的领导们认为,只要计算机足够“大”,无论输入多少信息量,它都能够输出结果。
然而在大约2003年的一天,在美国国家健康研究院的一间会议室里,我表明了自己的想法,指出不能只是单纯地向计算机输入数据,然后等待给出预期的结果。从古至今,任何一门科学都是一个约简的过程,即从复杂的、描述性的数据集到简化的概括。让那种昂贵的超级计算机来处理数据量越来越大、越来越复杂的生物数据几乎是不现实的,也没这个必要(见术语表,Supercomputer)。那天,我的想法没有被接受,研制高性能超级计算机当时仍是一个非常热门的课题,当然现在仍然是。
自基于超级计算机的癌症诊断方法提出以来已过去十年之久,那台诊断用的超级计算机设备仍没有制造出来。医院实验室用的诊断工具还是1590年研制出来的微电子显微镜。如今,我们从报刊中了解到科学家能够通过窥探组成我们基因的DNA的全部序列来给出重要的诊断结果。尽管如此,医生很少能对全基因组扫描排列,也没有人知道如何有效地使用基因数据。你也许会说医院和诊所有很多计算机,但这些计算机并非用来“计算”你的诊断结果。在医疗场所的计算机大部分仍是收集、存储、检索数据和传送医疗记录的工具。
在我们能够充分利用大量且复杂的数据资源之前,需要深入思考大数据的意义和命运。