大家好,我是欧K。
最近朋友提供了一份“渣男”语录,本期我们将使用pandas和wordcloud进行相关的分析,看看“渣男”最经常说的话都有哪些,小伙伴们请自觉对号入座。
1. 数据加载
用pandas进行读取,我们看一下表格数据结构,输出前10行:表格一共有三个字段:语录、喜欢、不喜欢。
然后我们用df.shape看一下这份表格一共有多少条语录:
表格一共是974行3列,也就是一共有974条语录。
2. 数据处理
2.1 数据查重在我们做数据分析时,我们所要处理的数据中难免会出现重复的数据,接下来我们检查一下这份语录看看有没有重复的数据,这里介绍两种查重的方法:
- unique() 以数组形式返回列的所有唯一值
- nunique() 返回的是唯一值的个数
我们看到一共有719条有效数据(不重复数据)。
2.2 数据去重
drop_duplicates()
函数体:主要参数:subset:输入要进行去重的列名,默认为None。
keep:取值有三个,分别是 first、last、false。
- keep=first时,保留相同数据的第一条。
- keep=last时,保存相同数据的最后一条。
- keep=false时,所有相同的数据都不保留。
inplace:布尔值,默认为False,是否直接在原数据上删除重复项或删除重复项后返回副本。
去重后一共有719条数据。
2.2 排序
按喜欢数量进行排序:
多喝热水!
多喝热水!
多喝热水!
对,你没看错,榜单第一是:多喝热水!
我居然是渣男!我裂了呀
!合不上的那种!
有多少小伙伴中枪了,请自觉排队。。。
筛选喜欢数量大于90的数据:
3. 词云制作
我们看看语录中出现的词汇都有哪些:
结果:
完。
END
以上就是本期为大家整理的全部内容了,有需要语录的小伙伴可以在后台回复“渣男语录”,即可获取,喜欢的朋友可以点赞、点在看也可以分享到朋友圈让更多人知道哦