《大数据原理:复杂信息的准备、共享和分析》一一0.2 大数据VS小数据

简介: 本节书摘来自华章出版社《大数据原理:复杂信息的准备、共享和分析》一 书中的第0章,第0.2节,作者:[美] 朱尔斯 J. 伯曼(Jules J. Berman)著 ,更多章节内容可以访问云栖社区“华章计算机”公众号查看。

0.2 大数据VS小数据
大数据不是已经膨胀到一个电子表格无法装下的小数据,也不是碰巧变得非常大的数据库。然而,一些习惯于处理小数据集的专业人士认为他们的电子表格和数据库技巧也适用于大数据资源,不需要掌握新的技巧或使用新的分析范式。从他们的角度,当数据变得越来越大时,只需要计算机去适应(计算速度更快、信息获取更多、存储容量更大等),大数据并没有摆出一些特殊难题以致于一台超级计算机都无法解决。
这种看待大数据的态度在数据库管理员、程序员和统计学家中普遍存在,但这是反生产力的。长此以往,将导致软件缓慢甚至无效,高投入低回报,数据分析能力不佳,甚至产生无用且不可逆的大数据资源缺陷。
让我们来看几个一般性差异,这些可以帮助我们区分大数据和小数据。
1.目标
小数据―常用来回答某个特定问题或服务于某个特定目标。
大数据―通常在思想上围绕一个目标而设计,但这个目标是可变的,摆出的问题也是千变万化的。这里有一个简短的、虚构的大数据资助基金,其目标是把来自渔业、海岸警卫队、商业航运、沿海管理机构的持续增长的数据收集起来,以支持下半岛的各种政府和商业管理的学习研究。在这个虚构的事件中,有一个模糊的目标,但这个目标显然没有办法指明大数据资源具体包含哪些内容,也无法完全解释大数据资源中的那些多种多样的数据以何种组织形式存在,如何与其他数据资源发生联系以及如何利用其进行数据分析。无论是谁都不能详述大数据的最终命运,通常来讲,大数据总是给我们带来惊喜。
2.地点
小数据―通常,小数据属于某个机构,常常存储在某台电脑中,有时也会存储在某个文件夹中。
大数据―通常通过电子空间传输,被分配到多个网络服务器上,存在于地球的任何地方。
3.数据结构和内容
小数据―通常包含高度结构化的数据,数据域被限制在某个单一的学科或分支学科之内。这些数据通常来自一个顺序电子表格,其记录格式是统一的。
大数据―必须有吸收非结构化数据的能力(如自由文本、图像、视频、音频、实体对象等)。数据源的内容也许跨多个学科,而其中每个独立的数据对象又有可能与其他大数据资源的数据相关联。
4.数据准备
小数据―在很多情况下,数据使用者从其个人的目的出发准备数据。
大数据―数据来自众多多样化的数据源,并由很多人来准备。数据的使用者很少是该数据的准备者。
5.寿命
小数据―当数据项目结束时,小数据保存的时间有限(很少超过研究数据的传统学术寿命,即大概7年),然后被擦除。
大数据―大数据项目使用的数据通常需要永久保存。理想情况下,当原始资源寿命结束时,存储在大数据资源中的数据将被吸收到另一个资源池中。很多大数据项目累积的数据会延伸到未来和过去(例如遗留数据)。
6.测量
小数据―通常小数据使用一个实验协议来进行测量,且该数据可由某个标准单元集描述。
大数据―众多不同类型的数据以多种不同的电子格式传输着。当数据可测量时,测量结果可通过多种协议获取。对数据管理者而言,确定大数据的质量是最困难的任务之一。
7.再现性
小数据―小数据项目通常情况下是重复的。如果有关于数据质量的问题,或对数据再现性、从数据中得到的结论的正确性有疑问,那么整个项目可被重现,并产生新的数据集。
大数据―通常复制大数据几乎是不可行的。在多数情况下,人们希望能够在大数据资源中发现坏数据并进行标记等。
8.风险
小数据―小数据项目的开销是有限的,实验室和研究机构往往能够从偶然的小数据失败中恢复过来。
大数据―大数据项目会非常昂贵。一个大数据项目的失败会导致公司破产、机构崩塌、大规模解雇员工以及存储在资源中的所有数据的瞬间瓦解。举个例子,NIH大数据项目,全称为“NCI cancer Biomedical Informatics Grid”,即“癌症生物医学信息网格”(见术语表,Grid),该项目从2004年到2010年花费了至少3.5亿美元。审查资源的一个专设委员会发现尽管项目组投入了数百名癌症研究人员和信息专家的努力,但项目基本没有完成且资金投入巨大,最终该项目被废止3。自那以后,这些数据资源很快被终止了4。虽然以金钱、时间和工作量来衡量该项目,其开销无疑是巨大的,但大数据的失败也许仍有一些可取的价值,毕竟失败是成功之母。
9.内省
小数据―独立的数据点由它们在数据表或数据库中的行和列的位置识别(见术语表,Data point)。如果知道行和列的表头,那么就可以找到和列举其中包含的全部数据。
大数据―除非大数据资源可以如预期的那样设计良好,否则即便是数据管理员也难以理解大数据资源的内容和组织形式(见术语表,Data manager)。要获取数据、掌握数据价值信息和数据组织信息,需通过内省技术才能达成(见术语表,Introspection)。
10.分析
小数据―大多数情况下,项目中的所有数据可同时进行全部分析。
大数据―无论是在超级计算机中还是在多个计算机中并行进行的大数据分析几乎都需要一步步递增式完成(见术语表,Parallel computing,MapReduce)。这些数据需经过多种方法进行提取、查看、删减、标准化、转换、可视化、释义和再分析等操作。

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
8月前
|
存储 分布式计算 大数据
基于Python大数据的的电商用户行为分析系统
本系统基于Django、Scrapy与Hadoop技术,构建电商用户行为分析平台。通过爬取与处理海量用户数据,实现行为追踪、偏好分析与个性化推荐,助力企业提升营销精准度与用户体验,推动电商智能化发展。
|
9月前
|
机器学习/深度学习 传感器 分布式计算
数据才是真救命的:聊聊如何用大数据提升灾难预警的精准度
数据才是真救命的:聊聊如何用大数据提升灾难预警的精准度
623 14
|
9月前
|
存储 SQL 分布式计算
终于!大数据分析不用再“又要快又要省钱”二选一了!Dataphin新功能太香了!
Dataphin推出查询加速新功能,支持用StarRocks等引擎直连MaxCompute或Hadoop查原始数据,无需同步、秒级响应。数据只存一份,省成本、提效率,权限统一管理,打破“又要快又要省”的不可能三角,助力企业实现分析自由。
458 49
|
8月前
|
机器学习/深度学习 大数据 关系型数据库
基于python大数据的台风灾害分析及预测系统
针对台风灾害预警滞后、精度不足等问题,本研究基于Python与大数据技术,构建多源数据融合的台风预测系统。利用机器学习提升路径与强度预测准确率,结合Django框架实现动态可视化与实时预警,为防灾决策提供科学支持,显著提高应急响应效率,具有重要社会经济价值。
|
8月前
|
机器学习/深度学习 大数据 关系型数据库
基于python大数据的青少年网络使用情况分析及预测系统
本研究基于Python大数据技术,构建青少年网络行为分析系统,旨在破解现有防沉迷模式下用户画像模糊、预警滞后等难题。通过整合多平台亿级数据,运用机器学习实现精准行为预测与实时干预,推动数字治理向“数据驱动”转型,为家庭、学校及政府提供科学决策支持,助力青少年健康上网。
|
9月前
|
存储 SQL 分布式计算
MaxCompute 聚簇优化推荐原理
基于历史查询智能推荐Clustered表,显著降低计算成本,提升数仓性能。
531 4
MaxCompute 聚簇优化推荐原理
|
9月前
|
传感器 人工智能 监控
数据下田,庄稼不“瞎种”——聊聊大数据如何帮农业提效
数据下田,庄稼不“瞎种”——聊聊大数据如何帮农业提效
287 14
|
9月前
|
机器学习/深度学习 传感器 监控
吃得安心靠数据?聊聊用大数据盯紧咱们的餐桌安全
吃得安心靠数据?聊聊用大数据盯紧咱们的餐桌安全
303 1
|
9月前
|
数据采集 自动驾驶 机器人
数据喂得好,机器人才能学得快:大数据对智能机器人训练的真正影响
数据喂得好,机器人才能学得快:大数据对智能机器人训练的真正影响
940 1