带你读《数据自治》前言第一章绪论1.3大数据(一)

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 《数据自治》前言第一章绪论1.3大数据

为什么叫大数据而不叫大信息?朴素地做一些解释CPI6.9是一条数据,如果你读懂了,你就可以获得信息经济处在高通胀状态,如果没有读懂,就没有获得信息。也就是说,对于读懂的人来说,数据就是信息,对于没有读懂的人来说,它只是数据,不是信息。又如,随意键入的一串字8上的飞机 spew2没有信息,但它是数据。另外,信息的大小难以衡量,但数据的大小可以衡量。现在讲大数据而不是大信息,是指数据规模确实很大,但并不意味着数据里面的信息很多(或很大),有些非常大的数据集可能没有什么有价值的信息,即大数据里可能没有大信息。本节关于大数据的讨论主要来自文献[10]

 

1.3.1         信息化与大数据

 

信息化的本质是生产数据的过程,数据被大量生产处理,进而形成了数据资源。数据资源的开发利用逐渐成为人类的新需求,从早期的数据仓库和数据挖掘技术的提出,到决策支持系统和商业智能的应用,都是在进行数据资源的开发利用工作。直到大数据的出现,数据资源的开发利用工作从量变发展到了质变:数据开发成为一个新的领域,信息技术发展出新的技术分支——大数据技术,并迅速壮大,对数据界的探索发展为一个新的科学——数据科学。图 1-1展示了信息化和大数据的差异[11]

我们需要把握住大数据和信息化二者之间的关系:不混淆、不冲突。

•  不混淆是指信息化和大数据是不同的,不能混为一谈,信息化是生产数据的,大数据是开发数据的,更重要的是:信息化是技术进步促进数据增长,大数据是数据增长促进技术进步。不能用信息化的做法和思路来发展大数据,也不能用发展大数据的方式来建设信息化。

•  不冲突是指大数据不取代信息化,信息化不包含大数据,信息化仍将快速发展,但大数据已经从信息化工作中独立出来了,如果说信息化对应的技术叫 IT

InformationTechnology,那么大数据对应的技术可以叫 DTDataTechnology

 

image.png

1-1大数据与信息化的差异

 

 

1.3.2         大数据定义

 

大数据已经是一个普遍使用的名词了。但是,技术领域和非技术领域对大数据有不同的理解,这两个领域谈论的对象其实是不同的,技术领域说的大数据是指大数据技术,而应用领域说的大数据是指大数据应用。事实上,经过长期的信息化建设,几乎所有的行业和单位都积累了庞大的数据资源,因此,数据和基于数据的应用几乎涉及所有的人。可以将大数据人群分成 3类:有大数据的人群、做大数据的人群和用大数据的人群,很多时候大家在谈论大数据时,实际上是在谈论不同的东西,即有大数据的人谈论数据资源及其规模,做大数据的人谈论大数据带来的技术挑战,用大数据的人则谈论大数据带来的决策变革。3类人群谈论的是不同的大数据概念。

那么,大数据是数据、技术、还是应用呢?这就需要一个清晰的大数据定义。先来看一下关于大数据的一些定义。

1997Michael  CoxDavidEllsworth[12]最早提出数据术语时指出:当数据量大到内存、本地磁盘,甚至远程磁盘都不能处理时,这类数据可视化的问题称为大数据。

      维基百科的定义:大数据是一个复杂而庞大的数据集,以至于很难用现有的数据库管理系统和其他数据处理技术进行采集、存储、查找、共享、传送、分析和可视化。

4V定义:大数据是具有 4V特征的数据集。4V特征是指:价值(Value),数据价值巨大但价值密度低;时效Velocity),数据处理分析要在希望的时间内完成;多样(Variety),数据来源和形式都是多样的;大量Volume),就目前技术而言,数据量要达到PB级别以上。

香山科学会议定义:20135月召开的第 462次香山科学会议给出了技术型和非技术型两个定义。

•  技术型定义:大数据是来源多样、类型多样、大而复杂、具有潜在价值,但难以在期望的时间内处理和分析的数据集。

•  非技术型定义:大数据是数字化生存时代的新型战略资源,是驱动创新的重要因素,正在改变人类的生产和生活方式。

上述这些定义的核心问题是:一个数据集有没有价值(值不值得去挖掘)?能不能挖掘出价值?能不能在希望的时间内挖掘出价值?

事实上,数据的价值和挖掘这些价值的时效是大数据的核心内涵。

•  关于价值:首先,如果一个数据集没有价值,就不需要关注;其次,如果一个数据集的价值密度高,即大部分数据是有价值的,直接读取数据集就能获得价值,没有技术难度。因此,真正的大数据是低价值密度的数据集。大数据是高难的技术挑战。

•  关于时效:首先,所有的大数据处理和分析都应该在希望的时间做完,如果过了希望的时间,就没有意义了,这是一个技术难题;其次,在竞争中,要比竞争对手更快地完成大数据处理和分析。

这样来看,大数据的核心只有两个 V:价值(Value)和时效(Velocity)。给定一个大数据,如果没有技术能够在决策希望的时间内挖掘其价值,那么大数据是一个技术挑战,否则这就是一个大数据应用。需要注意的是,一个大数据应用可能会转化成大数据的技术挑战。例如,无人驾驶汽车在道路上行驶时,会获取汽车自身的工作数据(行驶速度、油量、引擎工作状态等)、实时路况数据(前车车速、车距、行人等)、道路管理数据(红绿灯、限速等),并及时分析这些数据,及时做出驾驶判断。当车速小于 50km/h时,汽车发现 50m外车道上有行人后,花费 2s的时间得出需要刹车的结论是可以接受的;但当车速提高到 100km/h时,数据分析

的时间就需要小于1s。这时,大数据应用变成了大数据技术挑战。

这些定义最大的问题是当前技术难以(所不能)处理的。那么当技术改进了,能够处理了,还是不是大数据?于是,一个典型的矛盾现象出现了:技术领域说大数据是当前技术所不能解决的数据集,而应用领域却给出了大量关于大数据成功应用的案例。这是对大数据的谬误。

大数据谬误:大数据是当前技术难以(所不能)处理的数据集,那么,所有能够被处理的数据集都不是大数据,因此,没有成功的大数据应用。也就是说数据都不能被处理,能够处理的都不是大数据或者大数据都不能用,能用的都不是大数据[10]

从上述定义可以看出:首先,所有的定义都谈到了数据,一个庞大的数据集;其次,技术方面强调了大数据是当前技术所不能处理的,这里的不能是指能在决策希望的时间内做到;最后,大数据是用来解决决策应用问题的,是一个基于数据集和数据技术的决策应用,改变着生产和生活中的决策方式。因此,数据、技术和应用是大数据的 3个要素,数据隐含价值,技术发现价值,应用实现价值。

那么,应该如何定义大数据呢?

首先,不能把一个技术挑战定义为大数据,否则,一旦技术挑战解决了,就不是大数据了,另外,挑战本身不是一个事物,不能被命名;其次,也不能把一个数据集定义为大数据,数据集本身只是隐含价值,不能直接发挥作用;最后,更不能将一个数据应用定义为大数据,那样会导致所有基于数据的系统都被认为是大数据。我们可以对大数据做如下定义。

大数据是为决策问题提供服务的大数据集、大数据技术和大数据应用的总称。其中,大数据集是指一个决策问题用到的所有可能的数据,通常数据量巨大、来源多样、类型多样;大数据技术是指大数据资源获取、存储管理、挖掘分析、可视展现等技术;大数据应用是指使用大数据集和大数据技术来支持决策活动,是新的决策方法[10]

一个大数据是否能为一个决策问题提供服务的关键是:能否在决策希望的时间内有效完成所有的任务。但是数据增长的速度远快于技术进步的速度,因此,出现了大数据问题。

大数据问题是指不能用当前技术在决策希望的时间内处理分析的数据资源开发利用问题。大数据问题的关键技术挑战在于:找到隐含在低价值密度数据资源中的

价值;在决策希望的时间内完成所有的任务[10]

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
29天前
|
SQL 数据可视化 大数据
从数据小白到大数据达人:一步步成为数据分析专家
从数据小白到大数据达人:一步步成为数据分析专家
215 92
|
3月前
|
存储 分布式计算 数据挖掘
数据架构 ODPS 是什么?
数据架构 ODPS 是什么?
758 7
|
3月前
|
存储 分布式计算 大数据
大数据 优化数据读取
【11月更文挑战第4天】
98 2
|
1月前
|
分布式计算 Shell MaxCompute
odps测试表及大量数据构建测试
odps测试表及大量数据构建测试
|
27天前
|
存储 搜索推荐 大数据
数据大爆炸:解析大数据的起源及其对未来的启示
数据大爆炸:解析大数据的起源及其对未来的启示
91 15
数据大爆炸:解析大数据的起源及其对未来的启示
|
18天前
|
分布式计算 大数据 流计算
玩转数据:初学者的大数据处理工具指南
玩转数据:初学者的大数据处理工具指南
71 14
|
22天前
|
数据采集 存储 机器学习/深度学习
数据的秘密:如何用大数据分析挖掘商业价值
数据的秘密:如何用大数据分析挖掘商业价值
46 9
|
1月前
|
数据采集 存储 分布式计算
解密大数据:从零开始了解数据海洋
解密大数据:从零开始了解数据海洋
69 17
|
3月前
|
机器学习/深度学习 存储 大数据
在大数据时代,高维数据处理成为难题,主成分分析(PCA)作为一种有效的数据降维技术,通过线性变换将数据投影到新的坐标系
在大数据时代,高维数据处理成为难题,主成分分析(PCA)作为一种有效的数据降维技术,通过线性变换将数据投影到新的坐标系,保留最大方差信息,实现数据压缩、去噪及可视化。本文详解PCA原理、步骤及其Python实现,探讨其在图像压缩、特征提取等领域的应用,并指出使用时的注意事项,旨在帮助读者掌握这一强大工具。
174 4
|
3月前
|
存储 大数据 数据管理
大数据分区简化数据维护
大数据分区简化数据维护
46 4