大数据时代的“小数据”

简介:

如今,CIO们都已经接受了“大数据”的概念,另一个概念也逐渐受到关注:小数据。

这两者看似是相对立的两端,但是这不完全正确。小数据往往指数据量;而大数据当然也包含了数据量,但是也包含了多样性,时效性,特定的技术或者其他概念。

Kirk Borne,是美国乔治梅森大学的天体物理学和计算机科学的教授, 他认为这两者的区别是很重要的。Borne有关大数据的课程专注于大数据的属性和先进的分析技术, 而这些也几乎总是可以应用于小数据。但是后者却可以使学生进行实验,磨练他们在数据分析上的技能。而大数据则会快速把他们淹没。

随着CIO们斟酌着“多少数据是太多的数据”这个问题时,小数据在企业界因为类似的原因为自己树立名声。 Borne,前美国航空航天局员工,还曾为哈勃太空望远镜团队工作10年,在接受TechTarget专访时讨论了有关什么是小数据,以及它和大数据概念如何相互融合。

问:您最近会在一些会议上讨论小数据和大数据的对比。让我们先从定义开始:什么是大数据,什么是小数据?

Kirk Borne:定义小数据相对容易点,因为它基本上就是你能在笔记本电脑上完成的数据。大数据 – 则更复杂。我现在正在推广这样一个定义:大数据就是一切能够被量化和被追踪的。关于这一点,我的意思是我们现在几乎对于一切都在进行测量和量化 – 通过社交媒体,智能高速公路,智能城市,移动医疗,电子医疗记录,监控摄像头无处不在,这也涉及到大数据所带来的隐私问题。所有可以被测量的一切,我们都在进行测量。而我们不仅只是进行一次测量,我们还跟踪它如何随时间而变化。

问:为什么大数据如此难以定义?

Borne:你肯定看过瞎子摸象的动画片。每个人对于它是什么都有不同的定义,因为有人摸到的是腿,有人摸到的是鼻子,有人摸到的是尾巴。对于‘大象’,每个人都有不同的描述和定义。这就是我们的难处。人们希望大数据是一个概念,但是这是行不通的。

问:就职于Actuate公司的Allen Bonde曾经说过,小数据适合人使用,而大数据适合机器使用。这一区别定义合理吗?

Borne:是的。这是一种概括的说法。小数据,是你学习时使用的数据。关于学习,我指的是两件事情:第一,教育概念里的学习。所以,当我教授课程时,我一直使用小数据,我从来没有使用过大容量意义上的大数据,因为如果这样,学生们就会花费一整个学期学习如何移动数据,而没有时间学习任何运算方法。第二,当你在一个企业内,你想知道使用哪些合适的数据能够,追踪客户,或者向客户提供推荐,或者知道客户的偏好。或者说,有一个网络安全分析问题,你需要检测出漏洞或黑客攻击。所以,你进行这些实验,找出你所需要测量的数据 - 这就是小数据。

一旦你学会了这一模型......那么你使用它,在机器上运行完整的数据流。机器,本质上,使用你通过小数据得出的模型或者技能,在大数据流上进行运算。所以,小数据适合人使用,而大数据适合机器使用。

问:可视化技术在小数据与大数据的讨论中如何起到作用?

Borne:让我给你举个例子。当你第一次使用谷歌地图或者其他任何地图服务时,你会先看到一个世界地图。你没有真正获得任何数据;你只是看到了地球的图片。当你不断放大到一个特定的地点,它只提供给你这个特定地点的信息。当你不断放大,你将获得越来越高分辨率的数据。当你放大到分辨率最大可能值时,你就能看到自家的后院。这只不过是大数据的一个子集。是的,这一部分是‘小数据’,但是你真正所作的是,建立了一个分级数据结构,使你能够一层一层的放大。你可以左右移动,在同样分辨率下看到其他房子或者小区。可视化的强大就在这里。当你键入这个分级数据结构的某一特定数据时,可以说,你只是看到了冰山一角。 但是当你想移动到另一边时,你就可以获得同样分辨率数据集下的其他特定数据。你仍然可以访问整个数据集。

如果是小数据,你只是下载了一张地图,比如你自己城市的一个高分辨率地图,然后在地图上进行数据分析。

原文发布时间为:2014年07月04日
本文来自云栖社区合作伙伴至顶网,了解相关信息可以关注至顶网。
相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
2月前
|
分布式计算 DataWorks IDE
MaxCompute数据问题之忽略脏数据如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
47 0
|
2月前
|
SQL 存储 分布式计算
MaxCompute问题之下载数据如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
38 0
|
2月前
|
分布式计算 关系型数据库 MySQL
MaxCompute问题之数据归属分区如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
35 0
|
3月前
|
机器学习/深度学习 存储 分布式计算
机器学习PAI关于maxcompute上用protobuf 处理数据,比较方便的方式
机器学习PAI关于maxcompute上用protobuf 处理数据,比较方便的方式
|
2月前
|
分布式计算 DataWorks BI
MaxCompute数据问题之运行报错如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
38 1
|
4月前
|
存储 SQL 大数据
dataCompare大数据对比之异源数据对比
dataCompare大数据对比之异源数据对比
109 0
|
2月前
|
分布式计算 关系型数据库 数据库连接
MaxCompute数据问题之数据迁移如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
35 0
|
2月前
|
分布式计算 Cloud Native MaxCompute
MaxCompute数据问题之没有访问权限如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
38 0
|
10天前
|
数据采集 搜索推荐 大数据
大数据中的人为数据
【4月更文挑战第11天】人为数据,源于人类活动,如在线行为和社交互动,是大数据的关键部分,用于理解人类行为、预测趋势和策略制定。数据具多样性、实时性和动态性,广泛应用于市场营销和社交媒体分析。然而,数据真实性、用户隐私和处理复杂性构成挑战。解决策略包括数据质量控制、采用先进技术、强化数据安全和培养专业人才,以充分发挥其潜力。
13 3
|
12天前
|
运维 供应链 大数据
数据之势丨从“看数”到“用数”,百年制造企业用大数据实现“降本增效”
目前,松下中国旗下的64家法人公司已经有21家加入了新的IT架构中,为松下集团在中国及东北亚地区节约了超过30%的总成本,减少了近50%的交付时间,同时,大幅降低了系统的故障率。