最近知乎一个“有哪些较原来没落的985/211院校?”的问题引起了很多人的关注,回答者各种分析,但是究竟哪些学校是公认最没落的却没有定论
所以行哥尝试爬取了一共8万字的回答,通过统计的方式来找出公认最没落的学校,顺便从这些没落的学校里找出新的解读给大家分享一波,快看看有没有你的学校在里面[手动狗头]
爬取文字
分词
分析排名
机会
爬取文字
关于爬取知乎回答的代码,之前行哥有介绍过,总体就是获取知乎的问题号,利用api和正则表达式提取内容,具体可以看以下两篇推文(里面包含了源代码获取方式)
【安排】23行代码爬取知乎全部回答(内附源码和应用程序)
一分钟爬取知乎5646个知乎回答(内附代码)
分词
使用了一款高颜值的词云包来进行统计分析。stylecloud 是一位数据科学家Max Woolf基于wordcloud优化改良而成。并添加了一些有用的功能,从而创建出独特的词云。
关键是它只需要两行代码就可以直接生成词云,不要太简单。
# 公众号:一行数据 from stylecloud import gen_stylecloud gen_stylecloud(file_path='知乎回答.txt')
生成效果如下:
词云图中分布了各种大学的名字,快看看能不能找到你的学校
分析排名
当然词云统计并没有进行量化,不能看到大家公认的没落学校,所以行哥将8万字中提到了学校做了一个统计,该统计通过大学校名的全称和简称分别进行统计,同时未考虑某些别称(如世一大,窝工等)
统计出的结果如下图所示
大学全称统计
大学简称统计
无论是校名全称排名还是简称排名,我们都可以看到南京大学是公认的没落院校第一名,虽然现在也很厉害,但是曾经却属于亚洲第一的中央国立大学,被拆分成3所985和4所211学校,可见相对于过去的落末程度
其次兰大,东大,南开等这些老牌学校,它们的没落各有各的原因,但总体都有一个很大共同点,它们的强势专业基本集中在环化材生领域,据说“21世纪是生物的世纪”[再次手动狗头],估计还需要再等等把
机会
机会1:学校的没落意味着相对生源质量降低,竞争程度减少。对于想读研考不上热门学校热门专业的同学来说,这个排名也可以作为选学校的小小依据
机会2:后几名的某些学校,要么是名字太长在回答时写的别的简称(例如南七技校)没有统计出来,要么就是真正的没落了,没落到没人提了。但是这些学校也挂着211/985的牌子,可以作为考研的一个考虑哦
统计为0的学校
机会3:以点看面,无论是学校还是个人都无法逃脱时代大势的影响,已经上了环化材生大船的同学可得早点规划下自己未来,不然没落的不仅是学校了,还有.....