ITTC数据挖掘平台介绍(二) 微博数据挖掘和分析

简介:

上节我们介绍了系统的基本框架和特性,本文我们将通过该平台进行微博数据挖掘,并给出一些有意思的结果。

一.微博和微博数据

1.分析微博的意义

       新浪的数据以每天海量的速度增长,它包含了四亿网民的对国家大事的看法,对生活的诉求,对环境和人的观点,以及人际间关系,是了解和分析复杂网络和社会行为的无比重要的资源。因此开发微博分析软件,是有非常重要的意义的。

2.加载微博分析独立组件    

系统主要针对新浪微博,我们为微博开发了独立组件包,将其动态链接库dll文件拷贝到软件的插件目录下,系统就会自动加载。若不希望有该功能,只需简单删除链接文件库即可。

image

系统会将微博相关的算法,资源,数据类型加载到系统插件库中。

  3. 微博数据

组件包内置了用户,微博,评论,热点事件的数据类型的支持,同时提供了Entity Framework的数据库访问能力,使用方便。同时,软件内置了新浪微博API接口,可以方便的从微博中采集微博数据,如下图所示:

image

获取数据后,可以通过下面的可视化组件查看这些数据。

image

您可以对这些数据做筛选,排序等操作,并送入数据管理器,为完成数据分析做准备。

二. 微博分析功能

1. 微博转发和信息溯源

该功能可以让我们了解和分析任一条微博的被转发和评论情况,您可以以简单有效的方式查看微博的事件流传送过程。

使用方法很简单,在数据管理器中选定任意一条微博,在系统菜单上点选“数据”中的”image“,系统即可自动进行分析,结果如下:

image

2.话题分类和观点分析

该功能可以方便的对某用户的话题进行分类,并通过软件内置的”情感语义分析引擎“分析用户情感。并通过可视化组件实现绘图操作。

通过内置的微博采集器获取某名人的微博信息。

image

将”观点分析“和”图表统计输出“两个算法模块拖入算法处理器,并配置要处理的数据源。如下图所示:

image

最终可输出结果,分别以表格和图表的形式,给出分类结果。

image

3. 微博传播图谱

微博在微博网络中被转发的结构,最终可表现为不同的传播模式,36KR的一篇文章介绍了这个特性,链接在这里

我们也完成了类似的功能,并能实现动画布点,按照时间顺序,演示信息的转发逻辑。使用方法也很简单,类似本节第一条,在菜单中选取“微博传播网络”即可。

以下是潘总的微博”本月结束了,跑步100公里目标都没有完成,仅97.6公里” 的转发关系图,明显的,二次转发较少,以一次转发为主。

image

   三.用户关系行为分析

1. 用户关系分析

软件可以对某一批用户的关系进行分析,从而获得用户社团聚类,和人际关系网络。在用户关系分析中,我们采用了特别的相关度计算方法,结合用户的共同喜好,共同好友,地理位置等行为实现计算。当然,由于不同类型的用户可能具有完全不同的行为,软件会自动适配算法参数和权重,并送入聚类模块。

将“微博用户关系计算”,聚类图形显示和K-Means数据聚类拖入算法处理器,如下图所示:

image

这些算法通过自动组装,可实现如下的计算流程:

image

用户关系计算的结果送入K-means聚类中,最终将结果送入聚类图形显示中执行绘图。整个过程全部自动化。

image

最终,可获得好友关系圈,该人的好友主要分为两类,其本科同学和研究生同学。分类结果良好。若希望能更细分,可以将聚类参数进行调节,从而获得类似下图的结果:

image(没有完全显示)

2.用户数据统计

图表统计输出拖入到算法处理器, 该模块会自动根据数据类型加载不同的统计方案,如下图所示,我们采用地理位置的数量统计方法来统计用户的好友地理分布,如图所示:

image

image

3.用户地理位置显示

软件可以根据微博的位置标签,显示某用户在一段时间内的位置信息,并显示在系统内置的地图上。如下图所示:

image

同时,还可以实现”路径漫游”功能,动态播放运动轨迹。

 

四.总结和开发计划

  以上是软件平台目前关于微博的功能介绍。当然,这些结果还不完善。我们下一步的工作是:

1. 对微博数据进行深入语义分析和更加智能的情感分析

2. 微博的舆情分析,以及事件追踪图

3. 对微博特殊用户,如僵尸粉丝予以识别

4. 进一步了解和分析微博信息传播途径

 

有任何问题,欢迎进一步交流。

相关文章
|
存储 网络协议 网络安全
OpenWrt挂载U盘安装并配置Adguard Home
随着网络生活的日益丰富,广告成为了上网过程中不可避免的一部分。然而,过多的广告不仅会影响上网体验,还可能包含恶意代码,对全构成威胁。为了解决这一问题,许多用户选择使用去广告软件,其中Adguard Home便是一个广受欢迎的选择。
803 0
|
监控 安全 Java
探索Java的未来:JDK 18新特性全览
探索Java的未来:JDK 18新特性全览
413 0
|
IDE Linux 开发工具
零基础也能学会!Linux下安装RStudio工具及实现远程访问的详细指南
RStudio Server 使你能够在 Linux 服务器上运行你所熟悉和喜爱的 RStudio IDE,并通过 Web 浏览器进行访问,从而将 RStudio IDE 的强大功能和工作效率带到基于服务器的集中式环境中。
|
8月前
|
机器学习/深度学习 计算机视觉
YOLOv11改进策略【YOLO和Mamba】| 替换骨干 Mamba-YOLOv11-L !!! 最新的发文热点
YOLOv11改进策略【YOLO和Mamba】| 替换骨干 Mamba-YOLOv11-L !!! 最新的发文热点
233 10
YOLOv11改进策略【YOLO和Mamba】| 替换骨干 Mamba-YOLOv11-L !!! 最新的发文热点
|
8月前
|
数据库连接 开发者 Python
Python中的异常处理
本文深入探讨了Python中的异常处理机制,包括异常的捕获、处理、抛出及最佳实践。通过try-except语句块,程序可以在运行时处理错误,增强健壮性和可维护性。文章还介绍了自定义异常类的创建与使用,并提供了代码示例和详细的语法说明。最后,总结了异常处理的最佳实践,如精确捕获异常、提供有用错误信息等,帮助开发者编写更可靠的代码。
236 14
|
9月前
|
机器学习/深度学习 人工智能 Serverless
《主动式智能导购AI助手构建》解决方案评测
简介: 通过函数计算应用模板,您可以快速搭建一个集成智能导购的网站,实现多轮交互收集用户商品偏好,默认支持手机、电视和冰箱。部署时填写API Key,创建并部署环境(约1分钟)。部署完成后,访问示例网站域名确认成功。智能导购会根据用户意图分类并传递给相应商品导购Agent,返回商品信息。您还可以选择集成百炼应用进行智能商品检索。此架构适用于智能问诊、求职推荐等场景。在生产环境中,可修改知识库和源码以适配具体需求,并通过优化提示词和私有知识库来持续改进回复效果。
191 4
|
11月前
|
机器学习/深度学习 自然语言处理
掩码语言模型(MLM)
掩码语言模型(MLM)
256 2
|
算法 搜索推荐 小程序
智慧医院导航系统,技术引领就医流程优化
【摘要】智慧医院导航系统解决患者寻路难题,提高就医效率。政府政策支持导航服务纳入智慧医院标准,系统包括来院规划、院内精准定位、AR实景导航和全程导诊功能,减少患者等待时间,减轻导医台压力,促进医院信息化建设。
414 2
智慧医院导航系统,技术引领就医流程优化
|
存储 安全 Ubuntu
部署在CentOS上,有什么优缺点
【8月更文挑战第25天】部署在CentOS上,有什么优缺点
388 1
|
人工智能 Oracle 搜索推荐
2024年CRM系统全景对比:国内外十大热门选择
随着数字化转型加速,CRM系统成为企业优化客户管理与业务流程的关键。2024年全球CRM市场规模预计达650亿美元,年增约12.3%。本文分析十大热门CRM系统,涵盖功能、价格、体验及适用性,如销售易CRM的本地化优势、Salesforce的强大生态、HubSpot的易用性、Zoho CRM的高性价比、Oracle CRM的数据分析能力、SAP CRM的行业解决方案、腾讯企点的微信生态集成、客如云的行业专注、金蝶云之家的本土适应性及阿里云钉钉的生态整合。选择时需考量企业需求、预算、用户体验及供应商支持,未来CRM将更加智能化与个性化,助力企业数字化转型。