前 言
大约在十年前,本书作者所在的研究团队,也就是目前的微软亚洲研究院社会计算组,对挖掘人群移动数据中隐藏的知识产生了兴趣。这个团队在2007年开展了GeoLife项目,通过用户主动分享的移动数据来研究用户的出行模式,为旅游规划等应用提供支持。基于这个项目在WWW 2009大会上发表的论文“Mining interesting locations and travel sequences from GPS trajectories”目前引用数已经上千,在学术界产生了一定的影响。本书第一作者,目前在电子科技大学任教的连德富教授,长期针对基于移动数据的推荐系统进行研究,发表了大量有影响力的研究成果。在过去十年,随着室内外定位、移动社交网络和物联网技术的发展与普及,移动数据的种类、规模和产生速度一直在迅速增加。这些数据中很大一部分是由人产生的,也就是通过各种方式记录下来的人的活动历史。它们包含了大量的知识,对于众多实际应用有着重要的价值。我们可以通过对这些数据进行挖掘,发现人类出行的规律,并针对用户的属性和兴趣爱好生成画像,从而为用户提供更加个性化的服务,包括交通出行规划、旅游线路和购物餐饮推荐等。这些知识还能用来研究疾病传播、城市发展以及人类迁徙等具有重大社会意义的科学问题。在实际应用中,移动数据的形式多种多样,既有来自移动社交网络的签到数据,来自运营商的日志数据,也有来自公交计费系统的刷卡记录数据,还有很多并不是由人产生的数据,例如由车辆、船舶甚至动物的移动生成的数据。在本书中,我们试图以人群移动数据为例,探讨和设计针对移动数据的数据挖掘算法,并指出在该领域展开研究将面临的挑战,希望这些经验也同样能应用到其它类型的移动数据上。编辑为本书封面选取了清代苏州籍宫廷画家徐扬的巨幅长卷画作《姑苏繁华图》。在画中,画家通过自己对城市的理解,重现了苏州“商贾辐辏,百货骈阗”的市井风情。令人惊叹的是,据说全画中有各色人物1万2千余人。将他们的活动一一刻画出来是一个浩大的工程,反映了画家对苏州居民生活和出行规律的深刻理解,这也完美呼应了本书的主题。最后,我们希望本书能帮助有兴趣研究移动数据挖掘的读者缩短学习的过程,共同推进该领域的研究进展。
目 录
前言
第1章 引言
1.1 移动数据及其价值
1.2 概念与定义
1.3 挑战
1.4 本书简介
第2章 移动数据预处理
2.1 移动数据简介
2.2 缺失数据补全
2.2.1 公交卡的上下点补全
2.2.2 地点类别补全
2.3 重要地点检测
2.4 语义信息标注
2.4.1 区域功能标记
2.4.2 地点命名
第3章 用户移动建模
3.1 基于人类动力学的移动建模研究
3.1.1 连续时间的随机游走模型
3.1.2 引力模型
3.2 基于时空数据挖掘的移动建模研究
3.2.1 马尔可夫链模型
3.2.2 时间规律性模型
3.2.3 时空降维模型
3.2.4 社交关系影响
3.2.5 新颖地点预测
3.2.6 预测算法的融合
第4章 基于移动数据的用户画像
4.1 显性属性预测
4.1.1 移动数据和显性属性的关联
4.1.2 位置画像模型
4.2 隐性属性预测
4.2.1 猎奇心理特质挖掘
4.2.2 消费冲动心理挖掘
第5章 个性化兴趣地点推荐
5.1 协同过滤
5.1.1 基于邻域的方法
5.1.2 基于社交相似性的协同过滤
5.1.3 基于模型的方法
5.2 基于内容的过滤
5.2.1 内容过滤方法简介
5.2.2 地理建模
5.2.3 文本内容与情感分析
5.3 混合方法
5.3.1 混合模型基本方法
5.3.2 地理建模和协同过滤的联合模型
5.3.3 社交正则化的矩阵分解
5.3.4 内容感知的协同过滤方法
5.3.5 集成学习
5.4 情境感知的协同过滤方法
5.4.1 时间感知的地点推荐
5.4.2 序列化地点推荐
5.5 地点推荐系统的评价
第6章 结语