唤醒“沉睡”的手机大数据

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:

近年来,伴随手机的普及以及移动互联网技术的迅猛发展,手机使用中产生的大数据资源的研究与应用价值受到学者们的重视。然而,合理开发、利用手机大数据的边界尚未确定,海量数据仍处于“沉睡”之中。

忠实记录用户行为

据2016年1月工信部发布的2015通信运营业统计公报,中国移动电话用户总数达13.06亿户。如此规模的移动电话用户群体将产生海量数据。同济大学建筑与城市规划学院副教授钮心毅介绍,手机数据包括通话详单数据、话务量数据以及反映手机用户在网络活动的信令数据,其中信令数据就是典型的大数据。江西财经大学管理哲学研究中心主任黄欣荣告诉记者,“信令数据产生来源主要有社交数据、浏览数据、行为数据、消费数据等”。

那么,手机大数据具有怎样的特点?“手机产生的大数据除了具有大数据一般特征外,它更广泛、真实、全面,也更隐私。”西安交通大学公共政策与管理学院教授杜海峰分析说,手机是人们生活的传感器和记录器,一个手机的数据对应一个人真实的生活轨迹。手机记录了真实的社会关系与社会活动,可以更准确、系统地反映社会现实。据中国互联网络信息中心发布的第37次《中国互联网络发展状况统计报告》显示,截至2015年12月,中国手机网民规模达6.20亿。在黄欣荣看来,每位手机机主都是数据生产者,这些数据反映出手机已成为目前最常见的智能终端,是最便捷的数据生成器,忠实地记录了机主的日常生活。

有待开采的研究资源

手机大数据与人们生活息息相关,学者们将其看作是有待开采的宝贵资源。目前国际学术界已有研究人员正在探索如何使用手机数据来普及金融服务、追踪流行病的传播等问题。

黄欣荣认为,具体数据能够精确描述出研究对象,由此建立数据模型,有助于提炼出具有普遍性的一般规律。人文社会科学的客观数据采集一直是个难题,通过数据化来研究人的思想和行为是人文社会科学试图拓展的研究视域。手机记录的信息数据,使与人相关的数据获取有了客观、可靠的来源。

中国社会科学院哲学研究所研究员段伟文表示,手机大数据为社会学、经济学、传播学、新媒介研究等领域提供了新型经验数据源和实验平台,有利于促进人文社会科学研究的进一步数据化,推动数据社会科学研究深入发展,形成一些基于数据的、跨学科的人文社会科学学科群,如事件历史学、群体认知社会学、舆论与情绪传播学、新媒介场景整合地理学、移动媒介语言学等。

杜海峰所在的研究团队曾尝试通过手机大数据分析中国社会人际互动的规律。此外,中国科学院主持的相关流动人口监测项目也曾使用手机作为终端来获取流动人口的相关数据。钮心毅所在的研究团队近年来致力于探索使手机数据成为城市规划基础数据的可行性。“当我们用手机信令数据做城市功能分区的识别和评估时,它会带来新的视角,我们可以观察居民的就业点、居住点、休闲活动规律。大尺度、对应人口分布、对应居民活动范围是三个适合手机信令数据应用的前提。”钮心毅介绍说。

数据开发须遵守法律与伦理

手机大数据当前面临着隐私边界等棘手难题,而对于手机数据的获取和使用也有严格的监管措施。在钮心毅区分的三类手机数据中,通话详单数据公认为个人隐私,运营商不会提供,学者们的研究亦不会使用;话务量数据不涉及隐私,运营商相对愿意提供,但这个数据看不到个体行为,只能在一定程度上反映城市活动,目前国外研究者使用的最多也是这类数据;信令数据能反映居民日常活动的时空轨迹,在城市规划、交通、旅游等领域应用价值很大。运营商已对其进行了加密和脱敏处理,但要如何利用这些数据,目前尚无定论。黄欣荣表示,手机数据涉及太多信息,但如果不能被利用,会形成数据孤岛,不符合开放、共享的大数据时代精神。因此,手机大数据必须得到开发和利用,但需要守住法律与伦理的底线。

据段伟文观察,一方面,目前国内对大数据开发利用中的个人隐私权、知情同意权、信息接近权、信息知晓权等方面的研究较为薄弱,法律表述不清,法理基础不明。另一方面,人文社会科学的研究伦理阙如,相关研究远未展开。人文社会科学研究必须应对数据伦理和数据隐私权问题,既要体现社会现实,也要考虑与国际共识接轨。

钮心毅表示,从数据伦理来说,学界基于手机大数据的研究针对总体而不针对个体,但应尽快对大数据进行立法,明确规定对手机信令数据的开发利用界限。杜海峰建议,针对有关国家发展战略的研究,相关政府部门应精心组织,从手机系统中有目的地收集数据,经过脱敏处理后,有组织地发布给相关科研机构使用。同时需要加强科研人员自身的素质和学术道德,使科研人员对数据敬畏,对个人隐私敬畏。此外,所有研究应该具备公益性质,同时应加强舆论引导,使民众充分认识到手机大数据的科学价值和社会价值。
本文转自d1net(转载)

相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
人工智能 大数据
如何唤醒沉睡的医疗大数据?
本文讲的是如何唤醒沉睡的医疗大数据?【IT168 评论】近年来,很多国家都在积极推进医疗信息化发展,在临床辅助决策、医疗质量监管、疾病预测模型、临床试验分析、个性化治疗等方面的应用,大数据都将发挥巨大的作用。
1436 0
|
6天前
|
数据采集 自然语言处理 大数据
​「Python大数据」词频数据渲染词云图导出HTML
使用Python,本文展示数据聚类和办公自动化,焦点在于通过jieba分词处理VOC数据,构建词云图并以HTML保存。`wordCloud.py`脚本中,借助pyecharts生成词云,如图所示,关键词如"Python"、"词云"等。示例代码创建了词云图实例,添加词频数据,并输出到"wordCloud.html"。
18 1
​「Python大数据」词频数据渲染词云图导出HTML
|
16天前
|
存储 人工智能 OLAP
深度|大模型时代下,基于湖仓一体的数据智能新范式
本次文根据峰会演讲内容整理:分享在大模型时代基于湖仓一体的数据产品演进,以及我们观察到的一些智能开发相关的新范式。
|
21天前
|
分布式计算 大数据 关系型数据库
MaxCompute产品使用问题之如何查看数据离线同步每天从MySQL抽取的数据量
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
21天前
|
分布式计算 大数据 Java
MaxCompute产品使用问题之是否可以恢复最近两天生命周期清理的数据
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
21天前
|
机器学习/深度学习 分布式计算 大数据
MaxCompute产品使用问题之删除了某个分区的数据,如何找回
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。