《大数据原理:复杂信息的准备、共享和分析》一一0.2 大数据VS小数据

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 本节书摘来自华章出版社《大数据原理:复杂信息的准备、共享和分析》一 书中的第0章,第0.2节,作者:[美] 朱尔斯 J. 伯曼(Jules J. Berman)著 ,更多章节内容可以访问云栖社区“华章计算机”公众号查看。

0.2 大数据VS小数据
大数据不是已经膨胀到一个电子表格无法装下的小数据,也不是碰巧变得非常大的数据库。然而,一些习惯于处理小数据集的专业人士认为他们的电子表格和数据库技巧也适用于大数据资源,不需要掌握新的技巧或使用新的分析范式。从他们的角度,当数据变得越来越大时,只需要计算机去适应(计算速度更快、信息获取更多、存储容量更大等),大数据并没有摆出一些特殊难题以致于一台超级计算机都无法解决。
这种看待大数据的态度在数据库管理员、程序员和统计学家中普遍存在,但这是反生产力的。长此以往,将导致软件缓慢甚至无效,高投入低回报,数据分析能力不佳,甚至产生无用且不可逆的大数据资源缺陷。
让我们来看几个一般性差异,这些可以帮助我们区分大数据和小数据。
1.目标
小数据―常用来回答某个特定问题或服务于某个特定目标。
大数据―通常在思想上围绕一个目标而设计,但这个目标是可变的,摆出的问题也是千变万化的。这里有一个简短的、虚构的大数据资助基金,其目标是把来自渔业、海岸警卫队、商业航运、沿海管理机构的持续增长的数据收集起来,以支持下半岛的各种政府和商业管理的学习研究。在这个虚构的事件中,有一个模糊的目标,但这个目标显然没有办法指明大数据资源具体包含哪些内容,也无法完全解释大数据资源中的那些多种多样的数据以何种组织形式存在,如何与其他数据资源发生联系以及如何利用其进行数据分析。无论是谁都不能详述大数据的最终命运,通常来讲,大数据总是给我们带来惊喜。
2.地点
小数据―通常,小数据属于某个机构,常常存储在某台电脑中,有时也会存储在某个文件夹中。
大数据―通常通过电子空间传输,被分配到多个网络服务器上,存在于地球的任何地方。
3.数据结构和内容
小数据―通常包含高度结构化的数据,数据域被限制在某个单一的学科或分支学科之内。这些数据通常来自一个顺序电子表格,其记录格式是统一的。
大数据―必须有吸收非结构化数据的能力(如自由文本、图像、视频、音频、实体对象等)。数据源的内容也许跨多个学科,而其中每个独立的数据对象又有可能与其他大数据资源的数据相关联。
4.数据准备
小数据―在很多情况下,数据使用者从其个人的目的出发准备数据。
大数据―数据来自众多多样化的数据源,并由很多人来准备。数据的使用者很少是该数据的准备者。
5.寿命
小数据―当数据项目结束时,小数据保存的时间有限(很少超过研究数据的传统学术寿命,即大概7年),然后被擦除。
大数据―大数据项目使用的数据通常需要永久保存。理想情况下,当原始资源寿命结束时,存储在大数据资源中的数据将被吸收到另一个资源池中。很多大数据项目累积的数据会延伸到未来和过去(例如遗留数据)。
6.测量
小数据―通常小数据使用一个实验协议来进行测量,且该数据可由某个标准单元集描述。
大数据―众多不同类型的数据以多种不同的电子格式传输着。当数据可测量时,测量结果可通过多种协议获取。对数据管理者而言,确定大数据的质量是最困难的任务之一。
7.再现性
小数据―小数据项目通常情况下是重复的。如果有关于数据质量的问题,或对数据再现性、从数据中得到的结论的正确性有疑问,那么整个项目可被重现,并产生新的数据集。
大数据―通常复制大数据几乎是不可行的。在多数情况下,人们希望能够在大数据资源中发现坏数据并进行标记等。
8.风险
小数据―小数据项目的开销是有限的,实验室和研究机构往往能够从偶然的小数据失败中恢复过来。
大数据―大数据项目会非常昂贵。一个大数据项目的失败会导致公司破产、机构崩塌、大规模解雇员工以及存储在资源中的所有数据的瞬间瓦解。举个例子,NIH大数据项目,全称为“NCI cancer Biomedical Informatics Grid”,即“癌症生物医学信息网格”(见术语表,Grid),该项目从2004年到2010年花费了至少3.5亿美元。审查资源的一个专设委员会发现尽管项目组投入了数百名癌症研究人员和信息专家的努力,但项目基本没有完成且资金投入巨大,最终该项目被废止3。自那以后,这些数据资源很快被终止了4。虽然以金钱、时间和工作量来衡量该项目,其开销无疑是巨大的,但大数据的失败也许仍有一些可取的价值,毕竟失败是成功之母。
9.内省
小数据―独立的数据点由它们在数据表或数据库中的行和列的位置识别(见术语表,Data point)。如果知道行和列的表头,那么就可以找到和列举其中包含的全部数据。
大数据―除非大数据资源可以如预期的那样设计良好,否则即便是数据管理员也难以理解大数据资源的内容和组织形式(见术语表,Data manager)。要获取数据、掌握数据价值信息和数据组织信息,需通过内省技术才能达成(见术语表,Introspection)。
10.分析
小数据―大多数情况下,项目中的所有数据可同时进行全部分析。
大数据―无论是在超级计算机中还是在多个计算机中并行进行的大数据分析几乎都需要一步步递增式完成(见术语表,Parallel computing,MapReduce)。这些数据需经过多种方法进行提取、查看、删减、标准化、转换、可视化、释义和再分析等操作。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
8天前
|
存储 分布式计算 数据挖掘
数据架构 ODPS 是什么?
数据架构 ODPS 是什么?
67 7
|
8天前
|
存储 分布式计算 大数据
大数据 优化数据读取
【11月更文挑战第4天】
23 2
|
10天前
|
存储 机器学习/深度学习 SQL
大数据处理与分析技术
大数据处理与分析技术
45 2
|
1天前
|
机器学习/深度学习 分布式计算 算法
【大数据分析&机器学习】分布式机器学习
本文主要介绍分布式机器学习基础知识,并介绍主流的分布式机器学习框架,结合实例介绍一些机器学习算法。
27 5
|
13天前
|
存储 监控 数据挖掘
【Clikhouse 探秘】ClickHouse 物化视图:加速大数据分析的新利器
ClickHouse 的物化视图是一种特殊表,通过预先计算并存储查询结果,显著提高查询性能,减少资源消耗,适用于实时报表、日志分析、用户行为分析、金融数据分析和物联网数据分析等场景。物化视图的创建、数据插入、更新和一致性保证通过事务机制实现。
63 14
|
5天前
|
存储 大数据 数据管理
大数据分区简化数据维护
大数据分区简化数据维护
14 4
|
15天前
|
存储 大数据 定位技术
大数据 数据索引技术
【10月更文挑战第26天】
37 3
|
15天前
|
存储 大数据 OLAP
大数据数据分区技术
【10月更文挑战第26天】
49 2
|
18天前
|
消息中间件 分布式计算 大数据
数据为王:大数据处理与分析技术在企业决策中的力量
【10月更文挑战第29天】在信息爆炸的时代,大数据处理与分析技术为企业提供了前所未有的洞察力和决策支持。本文探讨了大数据技术在企业决策中的重要性和实际应用,包括数据的力量、实时分析、数据驱动的决策以及数据安全与隐私保护。通过这些技术,企业能够从海量数据中提取有价值的信息,预测市场趋势,优化业务流程,从而在竞争中占据优势。
61 2
zdl
|
8天前
|
消息中间件 运维 大数据
大数据实时计算产品的对比测评:实时计算Flink版 VS 自建Flink集群
本文介绍了实时计算Flink版与自建Flink集群的对比,涵盖部署成本、性能表现、易用性和企业级能力等方面。实时计算Flink版作为全托管服务,显著降低了运维成本,提供了强大的集成能力和弹性扩展,特别适合中小型团队和业务波动大的场景。文中还提出了改进建议,并探讨了与其他产品的联动可能性。总结指出,实时计算Flink版在简化运维、降低成本和提升易用性方面表现出色,是大数据实时计算的优选方案。
zdl
34 0
下一篇
无影云桌面