《大数据原理:复杂信息的准备、共享和分析》一一第0章 引  言 这是数据。 ―Jim Gray

简介:

**第0章
引  言
这是数据。
―Jim Gray**

回到20世纪60年代,我的高中学校在重要比赛之前都会召开动员大会。在一次动员大会中,橄榄球队的教练扛着一大箱的电脑纸走到舞台中央,每张纸折叠着与下一张相接,并打上孔串了起来。这位教练宣布校队所有成员的竞技能力已经被存储到学校的电脑中(很幸运,当时我们有自己的IBM-360主机),同样,竞争对手的数据也被存储到这台计算机中。我们指示这台计算机消化这些信息,并给出能赢下当年感恩节比赛的队名。于是这台计算机就吐出了前面提到的那一箱电脑纸,最后一张纸显示我们将赢得比赛。第二天,我们遭遇了在年复一年的竞争中的又一次可耻的失败。
让时间快进到大约50年前,马里兰州贝塞斯达国家癌症研究中心会议室,我正在听取一位女性顶级科学管理员讲述过去十年癌症研究的快速发展。她表明,当时最好的研究计划是多机构的和数据密集型的。那些受到资助的研究人员当时使用高通量分子方法,在短短几分钟内就能为每个组织样本产生堆积如山的数据,而当时能想到的只有一种解决方法,就是依靠超级计算机和一批聪明的程序员,他们可以分析这些数据并告诉我们这些数据背后的含义。
与我高中那位教练想的一样,美国国家健康研究院(NIH)的领导们认为,只要计算机足够“大”,无论输入多少信息量,它都能够输出结果。
然而在大约2003年的一天,在美国国家健康研究院的一间会议室里,我表明了自己的想法,指出不能只是单纯地向计算机输入数据,然后等待给出预期的结果。从古至今,任何一门科学都是一个约简的过程,即从复杂的、描述性的数据集到简化的概括。让那种昂贵的超级计算机来处理数据量越来越大、越来越复杂的生物数据几乎是不现实的,也没这个必要(见术语表,Supercomputer)。那天,我的想法没有被接受,研制高性能超级计算机当时仍是一个非常热门的课题,当然现在仍然是。
自基于超级计算机的癌症诊断方法提出以来已过去十年之久,那台诊断用的超级计算机设备仍没有制造出来。医院实验室用的诊断工具还是1590年研制出来的微电子显微镜。如今,我们从报刊中了解到科学家能够通过窥探组成我们基因的DNA的全部序列来给出重要的诊断结果。尽管如此,医生很少能对全基因组扫描排列,也没有人知道如何有效地使用基因数据。你也许会说医院和诊所有很多计算机,但这些计算机并非用来“计算”你的诊断结果。在医疗场所的计算机大部分仍是收集、存储、检索数据和传送医疗记录的工具。
在我们能够充分利用大量且复杂的数据资源之前,需要深入思考大数据的意义和命运。

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
6月前
|
存储 分布式计算 大数据
基于Python大数据的的电商用户行为分析系统
本系统基于Django、Scrapy与Hadoop技术,构建电商用户行为分析平台。通过爬取与处理海量用户数据,实现行为追踪、偏好分析与个性化推荐,助力企业提升营销精准度与用户体验,推动电商智能化发展。
|
7月前
|
机器学习/深度学习 传感器 分布式计算
数据才是真救命的:聊聊如何用大数据提升灾难预警的精准度
数据才是真救命的:聊聊如何用大数据提升灾难预警的精准度
505 14
|
7月前
|
存储 SQL 分布式计算
终于!大数据分析不用再“又要快又要省钱”二选一了!Dataphin新功能太香了!
Dataphin推出查询加速新功能,支持用StarRocks等引擎直连MaxCompute或Hadoop查原始数据,无需同步、秒级响应。数据只存一份,省成本、提效率,权限统一管理,打破“又要快又要省”的不可能三角,助力企业实现分析自由。
377 49
|
6月前
|
机器学习/深度学习 大数据 关系型数据库
基于python大数据的台风灾害分析及预测系统
针对台风灾害预警滞后、精度不足等问题,本研究基于Python与大数据技术,构建多源数据融合的台风预测系统。利用机器学习提升路径与强度预测准确率,结合Django框架实现动态可视化与实时预警,为防灾决策提供科学支持,显著提高应急响应效率,具有重要社会经济价值。
|
6月前
|
机器学习/深度学习 大数据 关系型数据库
基于python大数据的青少年网络使用情况分析及预测系统
本研究基于Python大数据技术,构建青少年网络行为分析系统,旨在破解现有防沉迷模式下用户画像模糊、预警滞后等难题。通过整合多平台亿级数据,运用机器学习实现精准行为预测与实时干预,推动数字治理向“数据驱动”转型,为家庭、学校及政府提供科学决策支持,助力青少年健康上网。
|
7月前
|
存储 SQL 分布式计算
MaxCompute 聚簇优化推荐原理
基于历史查询智能推荐Clustered表,显著降低计算成本,提升数仓性能。
442 4
MaxCompute 聚簇优化推荐原理
|
7月前
|
传感器 人工智能 监控
数据下田,庄稼不“瞎种”——聊聊大数据如何帮农业提效
数据下田,庄稼不“瞎种”——聊聊大数据如何帮农业提效
245 14
|
7月前
|
数据采集 数据可视化 关系型数据库
基于python大数据的电影数据可视化分析系统
电影分析与可视化平台顺应电影产业数字化趋势,整合大数据处理、人工智能与Web技术,实现电影数据的采集、分析与可视化展示。平台支持票房、评分、观众行为等多维度分析,助力行业洞察与决策,同时提供互动界面,增强观众对电影文化的理解。技术上依托Python、MySQL、Flask、HTML等构建,融合数据采集与AI分析,提升电影行业的数据应用能力。
|
7月前
|
机器学习/深度学习 传感器 监控
吃得安心靠数据?聊聊用大数据盯紧咱们的餐桌安全
吃得安心靠数据?聊聊用大数据盯紧咱们的餐桌安全
241 1
下一篇
开通oss服务