带你读《数据资产》第一章绪论1.1界定数据(一)

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 《数据资产》第一章绪论1.1界定数据(一)

1.1.3         数据与物质

 

数据和物质都是物理存在的,但数据的存在和物质的存在是不同的,主要表现在可标识性、可共享性和生命周期性 3个方面[6]

(1)可标识性

自然界的物质都是可标识的,所谓相同的两个东西指的是同质化的两个东西,例如,面对两杯水,可以说一样的两杯水;而对于数据,一个数据的存在和两个相同数据的存在是一样的,两个相同的数据的说法意义不大,两个相同的数据表示自然界的一个事物,即一个数据,一般采用一个数据的两个副本的说法。对于数据,通常讨论数据的相似性,而不讨论数据的相同性,相似性由相似性函数定义,可以说个相似的数据

数据的这种特性说明数据是面向值的,即如果有两个数据对象有相同的值,则认为它们是一个对象的两个副本。


(2)可共享性

共享就是指共同分享,在物理世界中主要指某样东西被多个人分。例如共享午餐是指共享者一起吃午餐,其实每个共享者吃的东西并不一样,同样的东西是不可能被吃进两个人的肚子里的。 

而数据共享的概念有本质上的不同,数据共享是指同样的数据被多个共享者使用,并且每个共享者拥有完全一样的数据量、数据形式和数据内容,即拥有数据的副本。相对于数据生产来说,将一个数据复制随意多个副本是轻而易举的事情,因此,数据是可共享的,并且数据拥有者通常愿意将其拥有的数据拿出来共享。

数据的可共享性意味着数据的边际成本很低,能够创造更多的价值。但是,数据的可共享性也可能带来负面效果,例如,因为数据副本的制作相对于数据生产来说非常容易,所以对数据所有权的保护就非常困难,数据的稀缺性也极易受到挑战。


(3)生命周期性

自然界中的物质会老化,有生命周期;而数据不会老化,没有生命周期。数据从其被生产出来到被删除这个过程看起来像是有生命周期的,但其实不是。根据数据的时间属性,一个数据本身是不会随时间的推移而变老、变旧的,例如,将一张照片数据存放多年以后,只要载体还存在或者不断替换新载体,这个数据对象本身是不会发生变化的,数据不会减少,质量也不会下降。

数据被生产、存储、修改、删除的过程通常是一个应用系统执行的结果,也可能是现实中对应该数据的事物的生命周期发生变化的数据反应,而不是计算机系统中数据的生命周期。这一点对于数据科学研究者而言非常重要。


1.1.4         大数据

 

关于大数据,不同的人群有不同的理解。当前,大数据人群可以被分为 3类:有大数据的人群、做大数据的人群和用大数据的人群。很多时候大家在谈论大数据时,实际上是在谈论不同的东西,即有大数据的人谈论数据资源及其规模,做大数据的人谈论大数据带来的技术挑战,用大数据的人则谈论大数据带来的决策   变革。

那么,大数据是数据、技术还是应用呢?事实上,数据的价值和挖掘这些价值的时效是大数据的核心内涵。

 

·  关于价值:首先,如果一个数据集没有价值,就不需要被关注;其次,如果一个数据集的价值密度高,即大部分数据是有价值的,那么直接读取数据集就能获得价值,没有技术难度。因此,真正的大数据是价值密度低的数据集,从数据集中获取价值像大海捞针一样。大数据是高难的技术挑战。


·  关于时效:首先,所有的大数据处理和分析都应该在希望的时间内完成,如果过了希望的时间,就没有意义了,这是一个技术难题;其次,在竞争中,要比竞争对手更快地完成大数据处理和分析。


这样来看,给定一个大数据,如果没有技术能够在希望的时间内挖掘其价值,那么大数据是一个技术挑战,否则就是一个大数据应用。需要注意的是,一个大数据应用可能会转化成大数据的技术挑战。例如,无人驾驶汽车在道路上行驶时,会获取汽车自身的工作数据(行驶速度、油量、引擎工作状态等)、实时路况数据(前车车速、车距、行人等)、道路管理数据(红绿灯、限速等),并及时分析这些数据、及时做出驾驶判断。当汽车速度小于 50km/h时,发现 50m外车道上有行人后,经过 2s的数据分析得出需要刹车的结论是可以接受的;但当车速提高到 100km/h时,数据分析的时间就需要小于 1s。这时,大数据应用变成了大数据技术挑战。


事实上,数据、技术和应用是大数据的 3个要素,数据隐含价值,技术发现价值,应用实现价值。大数据是为决策问题提供服务的大数据集、大数据技术和大数据应用的总称。其中,大数据集是指一个决策问题用到的所有可能的数据,通常数据量巨大、来源多样、类型多样;大数据技术是指大数据资源获取、存储管理、挖掘分析、可视展现等技术;大数据应用是指用大数据集和大数据技术来支持决策活动,是新的决策方法[7]

一个大数据能否为一个决策问题提供服务的关键是:能否在决策希望的时间内有效完成所有的任务。但是数据增长的速度远远大于技术进步的速度,因此,出现了大数据问题。大数据问题是指不能用当前技术在决策希望的时间内处理分析数据的数据资源开发利用问题。大数据问题的关键技术挑战在于:找到隐含在低价值密度数据

 

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
6月前
|
数据库
第二章用表组织数据
第二章用表组织数据
|
数据采集 存储 架构师
谈谈如何理解数据建模也是数据治理的一种形式
数据建模是数据治理的一种形式。我们将数据治理定义为“执行和实施”对数据和与数据有关的资产的定义、生产和使用的权威。
谈谈如何理解数据建模也是数据治理的一种形式
|
存储 传感器 人工智能
|
存储 机器学习/深度学习 大数据
带你读《数据资产》第二章数据资产的相关概念 2.5 相关概念分析
《数据资产》第二章数据资产的相关概念 2.5 相关概念分析
带你读《数据资产》第二章数据资产的相关概念  2.5	相关概念分析
|
大数据
带你读《数据资产》第一章绪论1.5小结
带你读《数据资产》第一章绪论1.5小结
|
大数据
带你读《数据资产》第一章绪论 1.3数据资产(二)
带你读《数据资产》第一章绪论 1.3数据资产
|
大数据 数据挖掘
带你读《数据资产》第一章绪论1.4 数据要素(二)
带你读《数据资产》第一章绪论1.4 数据要素
|
存储 传感器 大数据
带你读《数据资产》第一章绪论1.2数据资源
《数据资产》第一章绪论1.2数据资源