《移动数据挖掘》—— 1.2 概念与定义

简介: 前面提到移动数据是移动轨迹的集合,而移动轨迹是移动记录的有序序列。移动记录是〈时间,位置〉对,可以记录诸如用GPS设备等连续采样的数据,也可以记录诸如移动社交网络中签到等事件类型的数据。对于GPS设备采集的连续位置信息存在停留点,用户需要在附近停留一定的时间。

本节书摘来自华章出版社《移动数据挖掘》一 书中的第1章,第1.2节,作者连德富 张富峥 王英子 袁晶 谢幸,更多章节内容可以访问云栖社区“华章计算机”公众号查看。

1.2 概念与定义

前面提到移动数据是移动轨迹的集合,而移动轨迹是移动记录的有序序列。移动记录是〈时间,位置〉对,可以记录诸如用GPS设备等连续采样的数据,也可以记录诸如移动社交网络中签到等事件类型的数据。对于GPS设备采集的连续位置信息存在停留点,用户需要在附近停留一定的时间。因而,停留点是带有位置、到达时间及停留时间信息的点。对于非停留点位置,用户可能只是路过所以并不感兴趣,因而连续的GPS位置数据通常会被处理成停留点的序列。移动社交网络是移动位置服务和社交媒体的结合体,是一种与朋友分享地点访问信息的社交平台,可用于帮助人们更加便利、快捷地探索周边环境和配套设施。其中分享的地点访问信息就是移动社交网络中的签到。在签到时,一般是从兴趣点数据库中选择所访问的兴趣点,加上简短的话语分享感受。如果有更深刻的感触,还可以分享更加丰富的攻略信息甚至有趣的照片等。兴趣点是带有名字、语义信息的地点,比如餐馆、酒店、电影院等。诸如大众点评网和Yelp等本地服务平台纷纷兴起,大众点评网可以对地点进行打分和点评,来说明兴趣地点的好和差。点评信息和攻略信息有些类似,只是攻略信息没有打分。用户的移动历史信息除了可以表示为一个地点序列以外,还可以被处理为一个用户地点访问的二部图,在二部图中,图的顶点被分为两个不相交的子集,一个为用户集,一个为地点集。二部图的边只存在于两个子集之间,表示用户访问了某个地点,边的权重可以表示为访问次数。而子集内的顶点之间,即用户之间和地点之间,则无边相连。假设用户的集合为={u1,…,uM},地点的集合为={l1,…,lN},cu,i则表示用户集中的某一个用户u对地点集中的某一个地点i的访问次数,对应于二部图中的边权。众所周知,图可以用矩阵来表示,二部图同样也不例外。假设用矩阵C表示这个二部图,每一行对应每一个用户,每一列表示每一个地点,那么矩阵中的每一个元素cu,i便对应了二部图中的边权。随着城市的发展,可供人们访问的诸如餐馆、酒店、商场等地点是越来越多了。由于每个用户只会访问很少一部分地点,因此这个矩阵便是稀疏的。移动社交网络中的社交网络是由顶点和边组成的图结构,顶点是用户,边表示用户之间的关系,比如是否为朋友关系,或者亲密程度等。如果边表示亲密程度,那么图就是加权网络。如果关系是有方向的,比如微博中的关注关系,那么图就称为有向图。如果用户之间是双向关系,比如Facebook中的关系,那么图就为无向图。由于一个用户的朋友数有限,因此社交关系图就是稀疏的。图可以用矩阵来表示,社交关系图就可以用稀疏方阵来表示。对于双向关系的无向图,对应的稀疏矩阵便是对称的;而对于单向关系的有向图,对应的稀疏矩阵基本上就是非对称的。对于社交网络中的任意节点,其一度朋友是指该节点的直接邻居(朋友),二度朋友则是指该节点的朋友的朋友。随着度的增加,与该节点关联的节点越来越多。针对在线社交网络的研究,可以发现在线社交网络基本上都是小世界网络,满足“小世界理论”。“小世界理论”是指人们和任何一个陌生人之间所间隔的人不会超过6个。因而,达到一定的度之后,每个节点所关联的节点可能就会覆盖整个网络[24]。

相关文章
|
6月前
|
机器学习/深度学习 算法 数据挖掘
【数据挖掘】神经网络与感知机基础概念讲解(图文解释 超详细)
【数据挖掘】神经网络与感知机基础概念讲解(图文解释 超详细)
124 0
【数据挖掘】神经网络与感知机基础概念讲解(图文解释 超详细)
|
6月前
|
运维 安全 数据挖掘
【数据挖掘】离群点概念、类型、检测的挑战概述(图文解释 超详细)
【数据挖掘】离群点概念、类型、检测的挑战概述(图文解释 超详细)
394 0
|
6月前
|
机器学习/深度学习 存储 编解码
【数据挖掘】网格聚类STING、概念聚类COBWEB和模糊聚类的讲解(图文解释)
【数据挖掘】网格聚类STING、概念聚类COBWEB和模糊聚类的讲解(图文解释)
340 0
|
6月前
|
机器学习/深度学习 数据挖掘 BI
【数据挖掘】回归分析定义、概念、分类、过程讲解(图文解释 超详细)
【数据挖掘】回归分析定义、概念、分类、过程讲解(图文解释 超详细)
294 0
|
机器学习/深度学习 算法 数据挖掘
【数据挖掘】数据挖掘总结 ( 数据挖掘相关概念 ) ★★(二)
【数据挖掘】数据挖掘总结 ( 数据挖掘相关概念 ) ★★(二)
148 0
【数据挖掘】数据挖掘总结 ( 数据挖掘相关概念 ) ★★(二)
|
机器学习/深度学习 数据采集 算法
【数据挖掘】分类任务简介 ( 分类概念 | 分类和预测 | 分类过程 | 训练集 | 测试集 | 数据预处理 | 有监督学习 )
【数据挖掘】分类任务简介 ( 分类概念 | 分类和预测 | 分类过程 | 训练集 | 测试集 | 数据预处理 | 有监督学习 )
839 0
|
编解码 算法 数据挖掘
【数据挖掘】基于方格的聚类方法 ( 概念 | STING 方法 | CLIQUE 方法 )
【数据挖掘】基于方格的聚类方法 ( 概念 | STING 方法 | CLIQUE 方法 )
564 0
【数据挖掘】基于方格的聚类方法 ( 概念 | STING 方法 | CLIQUE 方法 )
|
数据挖掘
【数据挖掘】基于密度的聚类方法 - DBSCAN 方法 ( K-Means 方法缺陷 | 基于密度聚类原理及概念 | ε-邻域 | 核心对象 | 直接密度可达 | 密度可达 | 密度连接 )(三)
【数据挖掘】基于密度的聚类方法 - DBSCAN 方法 ( K-Means 方法缺陷 | 基于密度聚类原理及概念 | ε-邻域 | 核心对象 | 直接密度可达 | 密度可达 | 密度连接 )(三)
320 0
【数据挖掘】基于密度的聚类方法 - DBSCAN 方法 ( K-Means 方法缺陷 | 基于密度聚类原理及概念 | ε-邻域 | 核心对象 | 直接密度可达 | 密度可达 | 密度连接 )(三)
|
机器学习/深度学习 算法 数据挖掘
【数据挖掘】基于密度的聚类方法 - DBSCAN 方法 ( K-Means 方法缺陷 | 基于密度聚类原理及概念 | ε-邻域 | 核心对象 | 直接密度可达 | 密度可达 | 密度连接 )(二)
【数据挖掘】基于密度的聚类方法 - DBSCAN 方法 ( K-Means 方法缺陷 | 基于密度聚类原理及概念 | ε-邻域 | 核心对象 | 直接密度可达 | 密度可达 | 密度连接 )(二)
251 0
【数据挖掘】基于密度的聚类方法 - DBSCAN 方法 ( K-Means 方法缺陷 | 基于密度聚类原理及概念 | ε-邻域 | 核心对象 | 直接密度可达 | 密度可达 | 密度连接 )(二)
|
算法 数据挖掘
【数据挖掘】基于密度的聚类方法 - DBSCAN 方法 ( K-Means 方法缺陷 | 基于密度聚类原理及概念 | ε-邻域 | 核心对象 | 直接密度可达 | 密度可达 | 密度连接 )(一)
【数据挖掘】基于密度的聚类方法 - DBSCAN 方法 ( K-Means 方法缺陷 | 基于密度聚类原理及概念 | ε-邻域 | 核心对象 | 直接密度可达 | 密度可达 | 密度连接 )(一)
196 0
【数据挖掘】基于密度的聚类方法 - DBSCAN 方法 ( K-Means 方法缺陷 | 基于密度聚类原理及概念 | ε-邻域 | 核心对象 | 直接密度可达 | 密度可达 | 密度连接 )(一)