数据理解与预处理-6|学习笔记

简介: 快速学习数据理解与预处理-6

开发者学堂课程【高校精品课-华东师范大学 - Python 数据科学基础与实践数据理解与预处理-6】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/1067/detail/15444


数据理解与预处理-6

 

数据集的类型

我们前面学过数据是由数据对象Object和它的属性Attributes构成的,对于属性我们前面做了详细的介绍,对于数据对象,来看看由数据对象构成的数据集有哪些类型,主要有以下几种类型,一个是记录型Record,一个是图的数据集格式Graph,再一个是有序的数据集类型,对于记录型的数据类型有数据矩阵、文档数据、交易数据;

对于图构成的数据集有互联网、互联网网上的网页,比如说原子核的结构等等,都是图的结构;然后有序的数据的话,比如说空间数据,我们的温度序列数据、基因数据都是有序的数据。在讲数据集具体的每一个类型之前,我们来了解一下数据集的一般特性,数据集首先一个特性是维度的概念。

大家比较注意这个问题,在大数据时代,往往会有一个概念叫做维度灾难,就是数据集的维度特别多,维度可以是两维,三维等等;再一个数据集的一般特性是数据比较稀疏,数据比较稀疏。这个怎么理解呢?比如说在淘宝上面,可能有几十万种上面在销售,但是每一个客户可能只买少数几个商品,想象一张二维表,每一行是一个客户购买的记录每一列是一个商品,那肯定就是第一,每一个客户来说,他在表格里面只有少数的上面被购买了,那整个表格里面会有大量的商品没有购买,那这样的一个表格就是一个稀疏的表格,所以数据的稀疏在大数据时代里面也是非常;然后再一个数据器的特性叫分辨率,就是数据的分辨率,那这是什么概念呢?大家来理解一下,在交易的时候啊,比如说这件交易可以观察到按每天或者每小时或者每分钟或者每秒,这个天、小时、分钟、秒就是数据的分辨率概念,看你在做交易数据分析处理的时候,你做到哪一种分辨率?

image.pngimage.png 

1、记录数据

记录数据,它的数据集是记录的汇总的,每一个记录包含固定的属性,大家看这张表,这张表里面每一行就是一个记录,然后它有固定的属性构成的。

我们再看另外一个记录数据集叫数据矩阵(Data Matrix),大家要特别注意这里的数据矩阵和前面的记录数据,看起来都是一个二维表,那么它的不同是什么?不同,大家要注意在数据矩阵里的值都是数值型的,这一点大家要特别注意,那么我们在前面讲过数据集的共同特征,有一个维度灾难,那里的维度灾难是指整体数据集,他总共的维度,一般可以用m×n表示,比如说m行n列,m行非常巨大,n.列也非常多,就构成了维度灾难。

image.png另一个记录数据是文档数据,这个文档数据叫Document Data,一般是来表示文本的,每一个文档可以理解成一篇新闻,每一篇文档里是有一个一个单词构成的。我们要想分析这样的文档数据的话,我们可以了解每个单词在文档中出现的频率,中间的技术使用频率来表示,有了这样的这个文档数据,就可以做文档的相似性的一些分析处理,可以做文本挖掘的一些处理。

image.png再一个特殊的记录数据是交易数据(Transaction Data)。交易数据,它的每条记录是由交易中的一个一个项目构成,例如我们在商场购买商品的时候,一个收银单上面会有多个商品。交易数据对于我们后面的数据挖掘中的关联分析,观念规则分析非常重要,我们在观念规则这一章用到的数据很多都是交易数据。image.png

2、基于图的数据(Graph Data)

这里的图大家要注意,不要和我们平时理解的图片图像混淆了,这里的图是指有节点构成的图的网络,像我们的这个互联网,它的网页之间的关系就是典型的图的结构,还有我们在社交网络中的用户之间构成的一个用户的社交网络,我们要分析社交网络里面哪一个节点是一个核心节点,还有可能就是意见领袖,那么对于世界网络的分析就非常重要,另外我们在做文献计量的时候,文献里面的作者机构他们之间有合作关系等等,也可以构成合作网络,也是一种图的数据,还有现在非常热门的一个人工智能的下一代人工智能叫知识图谱,基本上也是基于图的结构。

image.png

3、有序的数据(Ordered Data)

有序数据最典型的是基因数据,这个下面显示的就是一组基因数据,它是有顺序的,这里面的G、T、C、A,大家以前的生物学过以后应该还有点印象吧,什么腺嘌呤鸟嘌,这都是基因的这样一个顺序构成。最近的话,这个新冠病毒大家知道通过测序发现它和冠状病毒很相似,是一种新的冠状病毒。对于有序的数据还有很多,比如说我们的地图空间数据,它是有顺序的,然后再是我们的文字文本,大家的写的文字,这都是有序的,还有我们的语音,说话的语音都是有序的,所以对于有序的数据,我们以后再做文本挖掘的时候,要从文本里面去发现知识,去处理有序的数据。还有现在这个语音识别已经很成熟了,语音识别也是处理一个有序的数据。

4、小结

这一小节主要学了这样几个知识,第一个什么是数据?数据是数据对象和他们属性的结合。然后数据属性又有很多知识点,数据属性他的类型有四种,又可以分两大类,然后对这些数据属性值可以进行变换,变换有什么规律;然后我们又讲到数据集的类型,数据集就是数据对象的集合,我们主要讲了三种,一种是Record Data记录数据,一种是图的数据,这里的图graph大家特别要注意,它不是我们常规理解的图片和图像,它是有节点和边构成的图的网络;然后还有一种数据集的类型是有序的数据,有序的数据的典型代表是基因数据,当然我们以后要做到文本的数据处理,文本数据也是有序的。

相关文章
|
4月前
|
编译器 程序员 Linux
C++系列九:预处理功能
C++系列九:预处理功能
|
4月前
|
Linux C语言 Windows
C预处理分析
C预处理分析
34 2
|
10月前
|
安全 编译器 C语言
详解预处理(1)
详解预处理(1)
67 1
预处理的学习
预处理的学习
50 0
|
前端开发
Less预处理——初识Less
Less预处理——初识Less
|
编译器
【学习笔记之我要C】预处理
【学习笔记之我要C】预处理
76 0
|
机器学习/深度学习 算法 数据可视化
数据理解与预处理-4|学习笔记
快速学习数据理解与预处理-4
数据理解与预处理-4|学习笔记
|
数据采集 机器学习/深度学习 自然语言处理
数据理解与预处理-2|学习笔记
快速学习数据理解与预处理-2
数据理解与预处理-2|学习笔记
|
数据采集 数据挖掘 开发者
数据理解与预处理-3|学习笔记
快速学习数据理解与预处理-3
数据理解与预处理-3|学习笔记
|
机器学习/深度学习 算法 安全
数据理解与预处理-5|学习笔记
快速学习数据理解与预处理-5
数据理解与预处理-5|学习笔记