《移动数据挖掘》—— 1.3 挑战

简介: 移动数据的形式多种多样,有来自移动社交网络中的签到数据、与基站通信时的日志数据,还有公交交通工具的刷卡数据、美钞的交易数据,等等,它们的特点也各有不同,具体表现在采样频率、数据采集方式、定位精度等。不过针对这些数据的挖掘所面临的挑战是类似的。

本节书摘来自华章出版社《移动数据挖掘》一 书中的第1章,第1.3节,作者连德富 张富峥 王英子 袁晶 谢幸,更多章节内容可以访问云栖社区“华章计算机”公众号查看。

1.3 挑战

移动数据的形式多种多样,有来自移动社交网络中的签到数据、与基站通信时的日志数据,还有公交交通工具的刷卡数据、美钞的交易数据,等等,它们的特点也各有不同,具体表现在采样频率、数据采集方式、定位精度等。不过针对这些数据的挖掘所面临的挑战是类似的。
● 可扩展性 移动数据的规模巨大,不仅源于用户群的规模,而且源于数据的产生速率。如此大规模的移动数据要求移动数据的挖掘算法需要具有较高的可扩展性。这种可扩展性应该尽可能地利用移动数据的诸如本地化、空间聚集等特性(将在第2章介绍)。
● 稀疏性 尽管移动数据规模巨大,但是每个人所拥有的非冗余信息非常有限,因而面临稀疏性的挑战。若以移动社交网络Foursquare中的签到数据为例,根据统计[61,29],用户平均每天只分享2~5个位置访问记录。因而要从如此稀疏的数据中去学习人们的日常生活模式和兴趣偏好就变得异常困难。在基站定位数据中,根据宋超明(音译)等人的分析[113],我们发现人们探索新地点的速率是随着时间增长而迅速减小的。即当人们熟悉了他们的周遭环境之后,便很少会继续探索新地点。因而,即使人们时刻分享其位置访问记录,这些分享的记录也都是冗余的。冗余的信息虽然可以帮助了解人们的日常生活规律,但是要从中深入了解人们的兴趣偏好也是一件挑战性很高的事情。
● 群体智慧 在移动社交网络中,人们趋于分享他们的感受和关注。通过评论、排名等方式可以很容易地获取群体的智慧。与用户交互在一起的各类元信息对于移动数据挖掘的很多任务是有巨大价值的。另外,人们通过对地点的访问而相互关联在一起,那么应该如何利用这些关联性来缓解稀疏性从而帮助了解人们的兴趣偏好呢?
● 异质性 移动数据挖掘的任务通常需要多个数据源共同支持。比如城市交通中事故的检测可能需要同时分析出租车的轨迹和监控的视频。兴趣地点的发现可能需要借助人们诸如年龄、性别、教育情况、任职情况等的基本信息,还可能需要社交网络上的社交关系,兴趣地点的物理位置信息、评论和攻略等文本内容,分享的图片信息,等等。城市功能区域的发现需要区域出入信息、周遭兴趣点信息,等等。因此,移动数据的挖掘需要设计诸如多视图、多核学习或共同矩阵分解等相关算法来处理这些多源异构的数据。

相关文章
|
11月前
|
缓存 关系型数据库 MySQL
MySQL 索引优化与慢查询优化:原理与实践
通过本文的介绍,希望您能够深入理解MySQL索引优化与慢查询优化的原理和实践方法,并在实际项目中灵活运用这些技术,提升数据库的整体性能。
609 5
|
SQL 存储 关系型数据库
关系型数据库中的PostgreSQL
【6月更文挑战第11天】
322 3
|
人工智能 PyTorch TensorFlow
分布式训练:大规模AI模型的实践与挑战
【7月更文第29天】随着人工智能的发展,深度学习模型变得越来越复杂,数据集也越来越大。为了应对这种规模的增长,分布式训练成为了训练大规模AI模型的关键技术。本文将介绍分布式训练的基本概念、常用框架(如TensorFlow和PyTorch)、最佳实践以及可能遇到的性能瓶颈和解决方案。
1641 2
|
缓存 资源调度 JavaScript
yarn安装和使用及与npm的区别
yarn安装和使用及与npm的区别
410 0
|
弹性计算 自然语言处理 Windows
通义灵码 Visual Studio 下载安装指南(附安装包)
本安装步骤适用于 Windows 10 及以上操作系统中安装和使用通义灵码。
136007 21
|
Java 数据库连接 数据库
Spring Boot 集成 MyBatis-Plus 总结
Spring Boot 集成 MyBatis-Plus 总结
1390 3
|
设计模式 消息中间件 监控
后端开发中的微服务架构:从概念到实践
后端开发中的微服务架构:从概念到实践
|
存储 缓存 资源调度
shamefully-hoist = true
shamefully-hoist = true
775 0
|
前端开发 JavaScript Java
SpringBoot整合Socket实战案例,实现单点、群发,1对1,1对多
本篇内容: 后端 + 前端简单HTML页面 功能场景点: 群发,所有人都能收到 局部群发,部分人群都能收到 单点推送, 指定某个人的页面