开发者社区> 长征6号> 正文
阿里云
为了无法计算的价值
打开APP
阿里云APP内打开

ITTC数据挖掘平台介绍(二) 微博数据挖掘和分析

简介:
+关注继续查看

上节我们介绍了系统的基本框架和特性,本文我们将通过该平台进行微博数据挖掘,并给出一些有意思的结果。

一.微博和微博数据

1.分析微博的意义

       新浪的数据以每天海量的速度增长,它包含了四亿网民的对国家大事的看法,对生活的诉求,对环境和人的观点,以及人际间关系,是了解和分析复杂网络和社会行为的无比重要的资源。因此开发微博分析软件,是有非常重要的意义的。

2.加载微博分析独立组件    

系统主要针对新浪微博,我们为微博开发了独立组件包,将其动态链接库dll文件拷贝到软件的插件目录下,系统就会自动加载。若不希望有该功能,只需简单删除链接文件库即可。

image

系统会将微博相关的算法,资源,数据类型加载到系统插件库中。

  3. 微博数据

组件包内置了用户,微博,评论,热点事件的数据类型的支持,同时提供了Entity Framework的数据库访问能力,使用方便。同时,软件内置了新浪微博API接口,可以方便的从微博中采集微博数据,如下图所示:

image

获取数据后,可以通过下面的可视化组件查看这些数据。

image

您可以对这些数据做筛选,排序等操作,并送入数据管理器,为完成数据分析做准备。

二. 微博分析功能

1. 微博转发和信息溯源

该功能可以让我们了解和分析任一条微博的被转发和评论情况,您可以以简单有效的方式查看微博的事件流传送过程。

使用方法很简单,在数据管理器中选定任意一条微博,在系统菜单上点选“数据”中的”image“,系统即可自动进行分析,结果如下:

image

2.话题分类和观点分析

该功能可以方便的对某用户的话题进行分类,并通过软件内置的”情感语义分析引擎“分析用户情感。并通过可视化组件实现绘图操作。

通过内置的微博采集器获取某名人的微博信息。

image

将”观点分析“和”图表统计输出“两个算法模块拖入算法处理器,并配置要处理的数据源。如下图所示:

image

最终可输出结果,分别以表格和图表的形式,给出分类结果。

image

3. 微博传播图谱

微博在微博网络中被转发的结构,最终可表现为不同的传播模式,36KR的一篇文章介绍了这个特性,链接在这里

我们也完成了类似的功能,并能实现动画布点,按照时间顺序,演示信息的转发逻辑。使用方法也很简单,类似本节第一条,在菜单中选取“微博传播网络”即可。

以下是潘总的微博”本月结束了,跑步100公里目标都没有完成,仅97.6公里” 的转发关系图,明显的,二次转发较少,以一次转发为主。

image

   三.用户关系行为分析

1. 用户关系分析

软件可以对某一批用户的关系进行分析,从而获得用户社团聚类,和人际关系网络。在用户关系分析中,我们采用了特别的相关度计算方法,结合用户的共同喜好,共同好友,地理位置等行为实现计算。当然,由于不同类型的用户可能具有完全不同的行为,软件会自动适配算法参数和权重,并送入聚类模块。

将“微博用户关系计算”,聚类图形显示和K-Means数据聚类拖入算法处理器,如下图所示:

image

这些算法通过自动组装,可实现如下的计算流程:

image

用户关系计算的结果送入K-means聚类中,最终将结果送入聚类图形显示中执行绘图。整个过程全部自动化。

image

最终,可获得好友关系圈,该人的好友主要分为两类,其本科同学和研究生同学。分类结果良好。若希望能更细分,可以将聚类参数进行调节,从而获得类似下图的结果:

image(没有完全显示)

2.用户数据统计

图表统计输出拖入到算法处理器, 该模块会自动根据数据类型加载不同的统计方案,如下图所示,我们采用地理位置的数量统计方法来统计用户的好友地理分布,如图所示:

image

image

3.用户地理位置显示

软件可以根据微博的位置标签,显示某用户在一段时间内的位置信息,并显示在系统内置的地图上。如下图所示:

image

同时,还可以实现”路径漫游”功能,动态播放运动轨迹。

 

四.总结和开发计划

  以上是软件平台目前关于微博的功能介绍。当然,这些结果还不完善。我们下一步的工作是:

1. 对微博数据进行深入语义分析和更加智能的情感分析

2. 微博的舆情分析,以及事件追踪图

3. 对微博特殊用户,如僵尸粉丝予以识别

4. 进一步了解和分析微博信息传播途径

 

有任何问题,欢迎进一步交流。


作者:热情的沙漠
出处:http://www.cnblogs.com/buptzym/
本文版权归作者和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接,否则保留追究法律责任的权利。


 本文转自FerventDesert博客园博客,原文链接:http://www.cnblogs.com/buptzym/archive/2012/11/30/2796749.html,如需转载请自行联系原作者

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
再次搞定 Ali 云函数计算 FC
原本早就该写完了微信 SDK 授权服务上云计划由于对 Ali 云函数计算 FC 的不熟悉遇到了很多的坑,再前面的文章中还吐槽了一通。在服务顺利跑通后,这回实打实的来总结一下顺利上云的保守指南~
22848 0
特稿|过去5年,阿里云是如何打造云原生数据库PolarDB的
阿里云在云原生数据库领域的自研创新突围。
23390 0
如何优雅的消除系统重复代码
在程序猿的日常工作中,不仅要跟随业务侧的发展不断开发新的需求,同时也需要维护老的已有平台。无论是开发新需求还是维护老系统,我们都会遇到同样一个问题,系统中总是充斥着很多重复的代码。
23801 0
初识Serverless函数计算
Serverless 并不是没有服务器,而是开发者不再需要关心服务器。在传统 Serverful 架构下,部署一个应用需要购买服务器,部署操作系统,搭建开发环境,编写代码,构建应用,部署应用,配置负载均衡机制,搭建日志分析与监控系统,应用上线后,继续监控应用的运行情况。而在 Serverless 架构下,开发者只需要关注应用的开发构建和部署,无需关心服务器相关操作与运维,在函数计算架构下,开发者只需要编写业务代码并监控业务运行情况。这将开发者从繁重的运维工作中解放出来,把精力投入到更有意义的业务开发上。
24222 0
【AI征文】对DeepRec认识以及了解
对DeepRec认识以及了解
57463 0
Tensorflow Serving部署模型与调用
本文以mnist为数据集,使用keras 构建CNN网络,将训练获取的模型通过Tensorflow Serving方式部署提供Rest Full接口,分别使用PostMan和Python调用服务,代码编辑调试使用阿里云PAI DSW实例,模型部署使用阿里云ECS虚拟机。
6034 0
业务中台之上的低代码应用开发平台
中台低代码平台帮助开发者掌握全栈能力,促进开发者提高工作效率,基于企业数字化业务能力组件,可以实现业务应用的敏捷按需装配,成为企业组装式应用创新平台,进而实现企业业务能力的持续优化和复用,促进从组织到企业甚至行业的业务能力集约与创新。
100887 0
十分钟生成影视级室内设计效果,红星美凯龙设计云如何升级传统家居行业
依托于阿里云强大的弹性云上GPU算力,红星美凯龙可以为客户提供快速的、高质量的渲染,实现秒级的门店快速设计。
65932 0
+关注
1222
文章
0
问答
文章排行榜
最热
最新
相关电子书
更多
低代码开发师(初级)实战教程
立即下载
阿里巴巴DevOps 最佳实践手册
立即下载
冬季实战营第三期:MySQL数据库进阶实战
立即下载