2020微博热点数据简析,附完整数据文件下载!

简介: 2020微博热点数据简析,附完整数据文件下载!

转眼之间,2021年的春节假期就要结束了,真的是太快了!

今天再分享一份超级棒的数据,就是2020年全年的微博热点数据,说实话,这里面如果认真分析的话,还是可以找到很多有意思,有价值的信息的。


但是由于我已经写过一篇2019年微博热点数据分析的文章了,这里就不再重复了,有兴趣的同学可以点击这里查看

2019微博热点分析

这里分享数据出来,希望更多的朋友可以从数据当中挖掘出更多的有价值的信息,大家一起学习进步!

下面是一些简单的数据汇总,欢迎大家一起讨论


搜索次数排行


全年微博热搜,最为直观的就是搜索次数了

微信图片_20220521143408.png

可以看到小猪的分手消息还真的是高啊,毕竟是可以完美的进行时间管理的人儿啊


热搜关键词


下面来根据热搜标题,进行关键词的划分,来看看不同词汇的出现次数

这里使用著名的 jieba 来进行分词处理,然后分别提取出人名,名词已经动词

import jieba.posseg as psg
import jieba
weibo_title = df['keyword'].values.tolist()
name_list = []
noun_list = []
verb_list = []
for i in weibo_title:
    result = psg.cut(i)
    for x in result:
        if x.flag == 'nr':
            name_list.append(x.word)
        elif x.flag == 'n':
            noun_list.append(x.word)
        elif x.flag == 'v':
            verb_list.append(x.word)

分词做好之后,就可以进行词汇数量的汇总,并进行排序

name_counts = {}
stopword = ['陈', '李', '杨', '王', '郭', '吴', '周', '明星', '辟谣']
for w in name_list:
    if w not in stopword:
        name_counts[w] = name_counts.get(w, 0) + 1
sort_counts = sorted(name_counts.items(), key=lambda item: item[1], reverse=True)

最后我们来看看对应的排名靠前的词汇图片


1.人名

微信图片_20220521143412.png

前美国总统竟然高居榜首,看来微博用户还都是很关注国际形势的,也包括华为、荣耀等,这都是大国之间博弈的体现!


2.名词

微信图片_20220521143415.png

新冠、肺炎占据着前两位,在这个不平凡的2020年里,我们大家注定都会不平凡!


3.动词

微信图片_20220521143419.png

动词就看看吧,不多说了

最后还是以动态视频来结尾,祝大家在新的一年里,工作顺心,事事如意!



相关文章
|
4月前
|
缓存 监控 小程序
关于抖音小程序数据加载速度优化
提升抖音小程序数据加载速度的建议:压缩和优化数据,减少请求次数(批量或合并请求),利用缓存策略,惰性加载和图片优化。代码示例包括数据压缩、批量请求、设置缓存、分页加载和图片懒加载。实际应用时,应根据项目需求选择合适策略,并进行性能测试和监控。
|
30天前
|
数据采集 存储 C#
C# 爬虫技术:京东视频内容抓取的实战案例分析
C# 爬虫技术:京东视频内容抓取的实战案例分析
|
4月前
|
数据采集 前端开发 数据挖掘
Fizzler库+C#:从微博抓取热点的最简单方法
本文介绍如何使用Fizzler库和C#构建微博热点信息爬虫。通过Fizzler的CSS选择器定位关键信息,提取热点标题和排名,实现微博内容的智能挖掘。示例代码展示单线程和多线程采集方法,并涉及代理IP使用。
Fizzler库+C#:从微博抓取热点的最简单方法
|
4月前
|
自然语言处理 数据挖掘
2020微博热点数据简析,附完整数据文件下载!
2020微博热点数据简析,附完整数据文件下载!
|
存储 搜索推荐 NoSQL
抖音是怎么做到不重复推荐内容呢?
抖音是怎么做到不重复推荐内容呢?
|
数据采集 JavaScript 前端开发
网站流量日志埋点收集 —原理实现雏形—如何解决 js 跨域问题(伪装图片)|学习笔记
快速学习网站流量日志埋点收集—原理实现雏形—如何解决 js 跨域问题(伪装图片)
247 0
网站流量日志埋点收集 —原理实现雏形—如何解决 js 跨域问题(伪装图片)|学习笔记
|
移动开发 监控 前端开发
每日一题:大文件上传如何做断点续传?
每日一题:大文件上传如何做断点续传?
220 0
每日一题:大文件上传如何做断点续传?
|
存储 缓存 NoSQL
每日一面 - Redis程序设计中,上百万的新闻,如何实时展示最热点的top10条呢
每日一面 - Redis程序设计中,上百万的新闻,如何实时展示最热点的top10条呢
每日一面 - Redis程序设计中,上百万的新闻,如何实时展示最热点的top10条呢
|
运维 搜索推荐 数据可视化
几百行代码完成百度搜索引擎,真的可以吗?(上)
Hello 大家好,我是鸭血粉丝,大家都叫我阿粉,搜索引擎想必大家一定不会默认,我们项目中经常使用的 ElasticSearch 就是一种搜索引擎,在我们的日志系统中必不可少,ELK 作为一个整体,基本上是运维标配了,另外目前的搜索引擎底层都是基于 Lucene 来实现的。
几百行代码完成百度搜索引擎,真的可以吗?(上)
|
存储 缓存 NoSQL
直播开发app,正确使用缓存需要考虑的要点
直播开发app,正确使用缓存需要考虑的要点