1000条豆瓣评论告诉你电影《四海》怎样

简介: 1000条豆瓣评论告诉你电影《四海》怎样

春节8部影片集结——《水门桥》、《狙击手》、《奇迹·笨小孩》、《四海》、《这个杀手不太冷静》,《喜羊羊与灰太狼之筐出未来》《熊出没·重返地球》和《小虎墩大英雄》,今天,我们用python爬虫看一下韩寒导演的新作《四海》的评价怎样?


豆瓣评分5.6分:

爬一下评论看看,具体代码如下:


import pandas as pd import requestsimport bs4import timeimport randomdef crawl(url):    headers={    'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.83 Safari/537.36',    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9',    'Cookie':'douban-fav-remind=1; gr_user_id=7192bf1b-dff1-4d4e-b442-198662a6e796; bid=bLrpSuzeKFg; _vwo_uuid_v2=DA05DCADC910BEDC1D1D3D0773318CF78|c22091fa3bd072eb5c0220641c8b64d8; ll="118159"; __utma=30149280.361671231.1587465102.1621428340.1643877464.15; __utmc=30149280; __utmz=30149280.1643877464.15.1.utmcsr=baidu|utmccn=(organic)|utmcmd=organic; ap_v=0,6.0; _pk_ref.100001.4cf6=["","",1643877472,"https://www.douban.com/search?q=%E5%9B%9B%E6%B5%B7"]; _pk_ses.100001.4cf6=*; __utma=223695111.48667557.1599446059.1618665220.1643877472.7; __utmb=223695111.0.10.1643877472; __utmc=223695111; __utmz=223695111.1643877472.7.1.utmcsr=douban.com|utmccn=(referral)|utmcmd=referral|utmcct=/search; __gads=ID=6d9ae20d05952062-22b28f7572d000f1:T=1643877472:RT=1643877472:S=ALNI_Maf1NOnNSyULUase9Tc0w3ne8oDGg; __utmt=1; __utmb=30149280.4.10.1643877464; dbcl2="253523217:dPbRGm5Pixk"; ck=SBVj; push_noty_num=0; push_doumail_num=0; _pk_id.100001.4cf6=ae0e18afc045976b.1599446058.7.1643879806.1618665220.'    }    html=requests.get(url,headers=headers)    soup=bs4.BeautifulSoup(html.text)    data=[]    web_name=soup.select('span.comment-info > a')    short_text=soup.select('div.comment > p > span.short')    for i,j in zip(web_name,short_text):        name=i.get_text()        text=j.get_text()        #保存一版只带评论的txt文件        with open('<四海>影评.txt','a+') as f:            f.write(text)    f.close()    return(data)
for i in range(0,250):    #建立一个空的DataFrame    inidata=pd.DataFrame()     url=f'https://movie.douban.com/subject/35337517/comments?start={i*20}&limit=20&status=P&sort=new_score'    print(url)    time.sleep(random.random())    crawl(url)

爬取结果为:

做个词云:


呃,词云评论里最多的词句居然是:韩寒、飞驰人生。好吧,果然都是导演、演员光环照耀这部电影,5.6的评分也算中肯,您觉得呢?

相关文章
|
3月前
|
数据采集
做个爬虫吧:豆瓣《八佰》影评
做个爬虫吧:豆瓣《八佰》影评
38 0
|
6月前
|
数据采集 存储 JSON
豆瓣电影信息爬虫实战-2024年6月
使用Python和`requests`、`PyQuery`库,本文教程教你如何编写一个豆瓣电影列表页面的爬虫,抓取电影标题、导演、主演等信息。首先确保安装所需库,然后了解技术栈,包括Python、Requests、PyQuery和正则表达式。爬虫逻辑包括发送HTTP请求、解析HTML、提取数据。代码示例展示了如何实现这一过程,最后运行爬虫并将结果保存为JSON文件。注意遵守网站使用条款和应对反爬策略。
203 2
|
7月前
|
SQL UED
有趣的电影
有趣的电影
58 0
|
7月前
爬取猫眼电影
爬取猫眼电影
66 0
|
7月前
爬取电影数据
爬取电影数据
64 0
|
数据采集 XML 存储
构建一个简单的电影信息爬虫项目:使用Scrapy从豆瓣电影网站爬取数据
这个案例展示了如何使用 Scrapy 框架构建一个简单的爬虫项目,从网页中提取数据并保存到文件中。通过配置、编写爬虫代码、定义数据模型和数据处理管道,你可以灵活地构建各种爬虫应用。
327 0
构建一个简单的电影信息爬虫项目:使用Scrapy从豆瓣电影网站爬取数据
|
数据采集
电影数据探索
电影数据探索
电影数据探索
|
数据挖掘 Python
Python数据分析系列03-豆瓣电影T250分析
很多人在羡慕别人身材好的时候,却不知道别人有多自律,然而,自己明明前一刻再提醒自己,一定要努力锻炼出好的身材,但是下一秒却没有办法控制自己的食欲。 总感觉自己有很多的才华,却没有机会去施展,可是却没有发现自己没有去努力的表现自己。
Python数据分析系列03-豆瓣电影T250分析
|
数据采集 Python
python爬虫爬取豆瓣电影排行榜
爬虫爬取豆瓣电影排行榜
|
文件存储 Python
简单爬取豆瓣电影相关信息
简单爬取豆瓣电影相关信息
171 0
简单爬取豆瓣电影相关信息
下一篇
DataWorks