大家好,我是志斌~
今天志斌在微博上看到一条关于炸鸡的热搜。
说实话,当时看到这条热搜时,志斌顿时就觉得自己之前吃的炸鸡好像并不是那么的香了!
然后志斌爬取了首条微博下的所有评论,来看看大家都是怎么评论这件事的~
01数据采集
志斌在之前的两篇文章中,详细的介绍了如何获取微博评论,有兴趣的读者可以看看这两篇文章批量爬取不同微博下的评论!爬取微博下全部评论数据~。这里志斌直接展示核心代码了,代码如下:
for page in range(1,10000): if page == 1 : params = ( ('id', '4654152979845247'), ('mid', '4654152979845247'), ('max_id_type', '0'), ) #s = requests.Session() response = requests.get('https://m.weibo.cn/comments/hotflow', headers=headers, params=params) a = response.json()['data']['max_id'] b = response.json()['data']['max_id_type'] for i in response.json()['data']['data']: pinglunshijian = i['created_at'] neirong = re.sub(r'<[^>]*>', '', i['text']) id = i['user']['id'] yonghumingcheng = i['user']['screen_name'] with open(r'71.txt', 'a', encoding='utf-8') as f: f.write(f'{neirong}\n') params = ( ('id', '4654152979845247'), ('mid', '4654152979845247'), ('max_id', str(a)), ('max_id_type', str(b)), ) print(f'爬取第{page}页数据......') time.sleep(random.randint(1,3))
02词云图展示
我们一共获取了5235条数据,对这些数据进行词云图绘制,我们发现不吃、拉肚子和炸鸡等词较多。看来这些炸鸡店对于食品卫生安全这一块确实需要更大力度的监管!!!
志斌还点击了鲸视频发布的视频看了,确实很让忧心,并且视频里面还算了一下它的净利润非常高,在如此之高的利润之下,希望这些店铺能够重视食品卫生安全!!!
代码如下:
with open("华莱士_1.txt",encoding='utf-8') as f: job_title_1 = f.read() job_title_2 = re.sub('华莱士', '', job_title_1) job_title_3 = re.sub('喷射', '', job_title_2) job_title_4 = re.sub('战士', '', job_title_3) job_title_5 = re.sub('外卖', '', job_title_4) job_title_6 = re.sub('再也', '', job_title_5) contents_cut_job_title = jieba.cut(job_title_6) contents_list_job_title = " ".join(contents_cut_job_title) wc = WordCloud(stopwords=STOPWORDS.add("一个"), collocations=False, background_color="white", font_path=r"K:\苏新诗柳楷简.ttf", width=400, height=300, random_state=42, mask=imread('xin.jpg', pilmode="RGB") ) wc.generate(contents_list_job_title) wc.to_file("推荐语.png")
03小结
1. 本文观点仅是作者个人观点,如有不当之处,请联系作者指正!
2. 也很感谢这些“卧底”,正是你们的努力,才让我们消费者的权益有所保障!
3. 本文仅做学习参考,不做它用。