ITTC数据挖掘平台介绍(三) 微博社团和传播分析

简介:

微博社团分析和传播分析是一种重要的微博研究手段,对社会关系和传播学研究都有重要的意义。

零. 最新进展

     距离上次的发文已经有几个月之久,一方面,软件通过抽象了微博接口,提供了对新浪,腾讯,网易微博的直接支持,算法只需对接口层进行开发,而不需考虑实际面向何种微博。另一方面,软件和Hadoop的互操作功能大大增强,通过WEBService实现互操作,同时实现了GPU的CUDA框架的互操作功能。目前正在开发基于MongoDB的图数据库接口层,顺便吐槽一下,Neo4j又慢又臭。

一. 微博用户社团分析

      用户社团关系分析是一种重要的社会群体研究手段,它展现了不同用户间的关系,并通过智能算法,对用户进行分组,并找出核心用户节点。软件内置了该功能。通过不同的评级算法,通过聚类和布点可视化呈现,在画布中绘制用户关系网络。

     目前,关系分析类型分为两类:

  •  按照用户真实关系分组,通过分析用户的好友数量,地理位置和一些其他信息,可展现真实社交网络的布局特点
  •  按照用户兴趣和标签分组:通过分析用户有代表性的微博,对其进行自然语言处理和文本特征提取后,确定该用户的主要兴趣点,并添加标签。

1.  按照用户关系分组

下面,我们以姚晨为例,按照用户真实关系分组的方案,对其600多位好友做社群关系分析,整个计算过程需要约一分钟,结果如图所示:

clip_image002

通常而言,名人很少添加陌生人节点,因此在社群图上体现出极少的孤立节点。两个大的社群(100多位用户),其中左边的放大图如下:

image

该社群主要以关注媒体的用户为主,例如罗永浩,南方都市报和新京报等。

再看一个小类:该类仅有六个用户,但清晰的表明了姚晨的一个爱好,书画鉴赏和一些好玩的东西,风之子,庄无邪等都是与书画艺术有一定关系的。

image

还有一些小类,例如下图所示,和上图类似,介绍从略。

image

2. 按照兴趣分组

按照兴趣分组时,将不考虑实际用户的关系,仅通过微博内容作自然语言处理分析得出结论。下面介绍一个典型案例:著名天使投资人,关注SNS数据挖掘创业的王煜全:

image

对该图进行放大,以其中的一个社群为例,如下图所示,可明显发现,这些用户都普遍关注科技和互联网创业等内容。将鼠标放在用户的节点上,可查看该用户的标签。

由于用户的话题千差万别,微博内容极其多变,对兴趣进行聚类绘图后,很难利用机器为不同社群的特性打标签,例如分析某社群都喜欢科技或娱乐等。这是一个难点,我们也在努力解决这个问题。

image

同时,画布支持对整个图形结构进行存储和读取,可以分别存储为压缩图形格式,和非压缩的JSON图形格式,方便随时加载。同时可对任意区间截图,利用画笔做标记(使用WPF的inkcanvas)等其他功能。

image

二 . 微博用户社团分析

     在微博营销过程中,客户将特别关心微博的传播能力,即,对用户群造成了多大的影响,哪些节点是核心传播节点,是否有水军等。本软件同样内置了该功能,可方便快速的展现微博传播特性,并通过动态布点,生动的展现微博传播网络的生成过程。

     我们以潘石屹的其中一条微博为例,展示分析过程。

     选取该用户的一条微博,如下图所示。该微博的内容是:“一句话不会讲,将来中国做支教老师了,勇敢啊@美丽中国”。

clip_image014

     在菜单栏中选取微博传播网络功能:系统便会自动调用不同算法模块完成分析功能。

clip_image016

     一方面,系统将会自动生成微博分析报告,包括所有转发用户的性别,地理位置,身份级别的统计等。 同时,系统还会生成微博转发顺序的时间线,通过该功能可容易的看到在哪些时段转发过程出现高潮。如下图所示:

image

      时间控件可以进行放缩控制,经过放大后,可以清楚的看到,在2013年四月18日上午9点59分出现转发高峰,一分钟内转发32次,后期逐渐减慢。

clip_image020

该传播中,男性比女性比例明显偏大。而传播层级统计上,第四次转发数量异常的高,这种情况通常是由于有强转发节点帮助了信息的传播,这些信息可在后面的传播路径图中清楚的看到。在地理位置上,北京,上海和广州的转发数量最高,由于该信息不带地理倾向,因此和各地经济发展水平是一致的。

image

另一方面,系统可动态的展示整个网络的生成过程。全图如下图所示,不同颜色点代表不同层级的转发。淡橙色为第一层转发,橙色为第二层,依次是深绿色和浅绿色。

clip_image023

     最下的节点,是潘石屹本人的微博,在其上越有300多人进行了第一次转发,少量人做了二次转发和三次转发。张欣做了重要的二次转发,美丽中国是一个重要的三次转发节点(转发自张欣,但美丽中国传播能力明显不足),任志强在转发张欣的微博后,又称为一个重要的传播节点,在该人之上,又做了四次,五次和更多次转发。

     动态呈现功能,展示了整个网络的生成过程。各节点从其转发位置,动态的移动到所在位置,形成布点过程,这个过程可以通过进度条展示,并可控制速度和实现暂停功能。可随时将不同时间点的图结构保存到硬盘中,方便分析。

     下图展示了在当日10点18分的网络结构,张欣等重要节点还未做转发。

clip_image025

      将鼠标放在不同的节点上,可以看到该用户所述内容(美丽中国节点)

image

    同样,系统可将所有转发的用户进行关系计算,呈现不同用户所在的用户区间,方便进行传播分析。该部分已经在上一节介绍过,恕不重复。

 

三. 舆情分析(正在开发中)

     我们在实践过程中,掌握了大量的新闻媒体报刊,以及微博数据,通过对这些数据做搜索和文本处理,可实现舆情分析功能。

     舆情分析功能通过时间曲线展示新闻报刊和微博两种媒体,对不同话题的专注情况,并给出不同时间点的标签。当发生类似事件时,软件可通过智能分析对未来走向进行预测,目前软件内置了一个较为简单的“贪污模型”。 通过对多例事件的报刊和微博数据的交互和时间轴信息进行训练,当有类似事件出现,系统可对其事态发展做一定估计。

clip_image041

     上图是著名的贪腐事件,杨达才(微笑局长)。该人在8月25日曝光在事故现场微笑,并佩戴名表,在微博上迅速出现一个峰值。该人向公众解释是儿子的表之后,事件回落,在两天之后曝光量迅速减少。传统媒体(尤其是各地小报)都有所跟进,但由于该事件较小,并没有在传统媒体上形成较大影响。

    之后,在9月1日,网络曝光其拥有多块名表,于是形成了新的高峰,但高度明显不及第一次高峰。在这次高峰之后,传统媒体也迅速跟进,大量文章出现,长达四个礼拜之久。由于周日是报社休息,因此周天出现了明显低谷。

   第三次高潮是杨达才撤职,微博形成了新的高峰,位于九月底,各大媒体也迅速报道。

   该事件在10月份后基本平息。

   这个典型事件反映了微博和报刊数据的真实特点。一方面,微博具备强烈的快速特征,来得快去得快,一件事情的热度一般不超过三天。但传统报刊则明显比微博滞后,但体现了鲜明的政府意志,因此更能影响微博和事件走向,两者相互影响和制约,共同带动了事件的发展。

四 . 总结

     说些没用的, 这套平台使用.NET作为开发平台,而数据挖掘真正根正苗红的语言是JAVA和Python等,少见.NET。 最近很关心研究生实习招聘,我愣是没看到一个C#的字眼,连微软的招聘信息都没看到,真是情何以堪。 用.NET开发,有可视化的强大优势和互操作特性,丧失了跨平台和分布式特性。可惜现在,做数据挖掘的,若不说分布式,并行处理这些词,感觉就像从山里出来的一样,哈哈。

     附件是姚晨同学微博的关系网络,用的是JSON输出,分别包含Nodes和Paths两个部分,有经验的同学一看就懂,解析起来很方便。下载地址

     有任何问题,欢迎讨论。


作者:热情的沙漠
出处:http://www.cnblogs.com/buptzym/
本文版权归作者和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接,否则保留追究法律责任的权利。

标签: 数据挖掘

本文转自FerventDesert博客园博客,原文链接:http://www.cnblogs.com/buptzym/archive/2013/04/23/3037370.html,如需转载请自行联系原作者
目录
相关文章
|
4月前
|
自然语言处理 算法 数据挖掘
【数据挖掘】十大算法之PageRank连接分析算法
文章介绍了PageRank算法的基本概念和数学模型,包括如何通过一阶马尔科夫链定义随机游走模型以及如何计算网页的重要性评分,并提供了PageRank迭代算法的具体步骤。
87 0
|
4月前
|
自然语言处理 数据可视化 安全
【第十届“泰迪杯”数据挖掘挑战赛】C题:疫情背景下的周边游需求图谱分析 问题一方案及Python实现
第十届“泰迪杯”数据挖掘挑战赛C题的解决方案,涉及疫情背景下周边游需求图谱分析,包括微信公众号文章分类、周边游产品热度分析、本地旅游图谱构建与分析,以及疫情前后旅游产品需求变化分析的Python实现方法。
134 1
【第十届“泰迪杯”数据挖掘挑战赛】C题:疫情背景下的周边游需求图谱分析 问题一方案及Python实现
|
4月前
|
数据采集 自然语言处理 数据可视化
基于Python的社交媒体评论数据挖掘,使用LDA主题分析、文本聚类算法、情感分析实现
本文介绍了基于Python的社交媒体评论数据挖掘方法,使用LDA主题分析、文本聚类算法和情感分析技术,对数据进行深入分析和可视化,以揭示文本数据中的潜在主题、模式和情感倾向。
235 0
|
4月前
|
机器学习/深度学习 安全 算法
【2023年第十一届泰迪杯数据挖掘挑战赛】A题:新冠疫情防控数据的分析 32页和40页论文及实现代码
本文总结了2023年第十一届泰迪杯数据挖掘挑战赛A题的新冠疫情防控数据分析,提供了32页和40页的论文以及实现代码,涉及密接者追踪、疫苗接种影响分析、重点场所管控以及疫情趋势研判等多个方面,运用了机器学习算法和SEIR传染病模型等方法。
71 0
【2023年第十一届泰迪杯数据挖掘挑战赛】A题:新冠疫情防控数据的分析 32页和40页论文及实现代码
|
4月前
|
机器学习/深度学习 安全 算法
【2023年第十一届泰迪杯数据挖掘挑战赛】A题:新冠疫情防控数据的分析 建模方案及python代码详解
本文介绍了2023年第十一届泰迪杯数据挖掘挑战赛A题的解题思路和Python代码实现,涵盖了新冠疫情防控数据的分析、建模方案以及数据治理的具体工作。
79 0
【2023年第十一届泰迪杯数据挖掘挑战赛】A题:新冠疫情防控数据的分析 建模方案及python代码详解
|
4月前
|
存储 数据可视化 数据挖掘
【第十届“泰迪杯”数据挖掘挑战赛】C题:疫情背景下的周边游需求图谱分析 问题三方案及Python实现
第十届“泰迪杯”数据挖掘挑战赛C题的解决方案,专注于问题三“本地旅游图谱构建与分析”,介绍了基于OTA和UGC数据的旅游产品关联分析方法,使用支持度、置信度、提升度来计算关联度得分,并进行了结果可视化,同时指出了方案的改进方向。
71 1
|
4月前
|
存储 自然语言处理 算法
【第十届“泰迪杯”数据挖掘挑战赛】C题:疫情背景下的周边游需求图谱分析 问题二方案及Python实现
第十届“泰迪杯”数据挖掘挑战赛C题的解决方案,专注于疫情背景下的周边游需求图谱分析,具体针对问题二“周边游产品热度分析”,介绍了从OTA和UGC数据中提取旅游产品、计算产品热度得分、判断产品类型的方法,并给出了Python实现步骤和代码。
93 1
|
4月前
|
数据采集 自然语言处理 数据可视化
基于python数据挖掘在淘宝评价方面的应用与分析,技术包括kmeans聚类及情感分析、LDA主题分析
本文探讨了基于Python数据挖掘技术在淘宝评价分析中的应用,涵盖了数据采集、清洗、预处理、评论词频分析、情感分析、聚类分析以及LDA主题建模和可视化,旨在揭示淘宝客户评价中的潜在模式和情感倾向,为商家和消费者提供决策支持。
|
4月前
|
SQL 开发框架 大数据
【数据挖掘】顺丰科技2022年秋招大数据挖掘与分析工程师笔试题
顺丰科技2022年秋招大数据挖掘与分析工程师笔试题解析,涵盖了多领域选择题和编程题,包括动态规划、数据库封锁协议、概率论、SQL、排序算法等知识点。
96 0
|
4月前
|
机器学习/深度学习 算法 数据挖掘
【数据挖掘】PCA 主成分分析算法过程及原理讲解
主成分分析(PCA)的原理和算法过程。
88 0

热门文章

最新文章