本节书摘来自华章出版社《移动数据挖掘》一 书中的第1章,第1.3节,作者连德富 张富峥 王英子 袁晶 谢幸,更多章节内容可以访问云栖社区“华章计算机”公众号查看。
1.3 挑战
移动数据的形式多种多样,有来自移动社交网络中的签到数据、与基站通信时的日志数据,还有公交交通工具的刷卡数据、美钞的交易数据,等等,它们的特点也各有不同,具体表现在采样频率、数据采集方式、定位精度等。不过针对这些数据的挖掘所面临的挑战是类似的。
● 可扩展性 移动数据的规模巨大,不仅源于用户群的规模,而且源于数据的产生速率。如此大规模的移动数据要求移动数据的挖掘算法需要具有较高的可扩展性。这种可扩展性应该尽可能地利用移动数据的诸如本地化、空间聚集等特性(将在第2章介绍)。
● 稀疏性 尽管移动数据规模巨大,但是每个人所拥有的非冗余信息非常有限,因而面临稀疏性的挑战。若以移动社交网络Foursquare中的签到数据为例,根据统计[61,29],用户平均每天只分享2~5个位置访问记录。因而要从如此稀疏的数据中去学习人们的日常生活模式和兴趣偏好就变得异常困难。在基站定位数据中,根据宋超明(音译)等人的分析[113],我们发现人们探索新地点的速率是随着时间增长而迅速减小的。即当人们熟悉了他们的周遭环境之后,便很少会继续探索新地点。因而,即使人们时刻分享其位置访问记录,这些分享的记录也都是冗余的。冗余的信息虽然可以帮助了解人们的日常生活规律,但是要从中深入了解人们的兴趣偏好也是一件挑战性很高的事情。
● 群体智慧 在移动社交网络中,人们趋于分享他们的感受和关注。通过评论、排名等方式可以很容易地获取群体的智慧。与用户交互在一起的各类元信息对于移动数据挖掘的很多任务是有巨大价值的。另外,人们通过对地点的访问而相互关联在一起,那么应该如何利用这些关联性来缓解稀疏性从而帮助了解人们的兴趣偏好呢?
● 异质性 移动数据挖掘的任务通常需要多个数据源共同支持。比如城市交通中事故的检测可能需要同时分析出租车的轨迹和监控的视频。兴趣地点的发现可能需要借助人们诸如年龄、性别、教育情况、任职情况等的基本信息,还可能需要社交网络上的社交关系,兴趣地点的物理位置信息、评论和攻略等文本内容,分享的图片信息,等等。城市功能区域的发现需要区域出入信息、周遭兴趣点信息,等等。因此,移动数据的挖掘需要设计诸如多视图、多核学习或共同矩阵分解等相关算法来处理这些多源异构的数据。