做个爬虫吧:豆瓣《八佰》影评

简介: 做个爬虫吧:豆瓣《八佰》影评

好久没做爬虫了,今天爬上来跟大家分享一个爬虫,有关《八佰》电影的豆瓣短评:


具体代码如下:


import pandas as pd import requestsimport bs4import timedef crawl(url):    headers={    'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.83 Safari/537.36',    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9',    'Cookie': 'bid=ggoU9ogRZTI; __gads=ID=cf4b76203c51526a:T=1585391454:S=ALNI_Mangm1-lZDdaHGhDsZDd87LK4ajEQ; douban-fav-remind=1; ll="118159"; _vwo_uuid_v2=DA05DCADC910BEDC1D1D3D0773318CF78|c22091fa3bd072eb5c0220641c8b64d8; __yadk_uid=xabOiJQfYcXeppS6VjvXA4HVrPFvOuqf; _pk_ref.100001.4cf6=%5B%22%22%2C%22%22%2C1599530216%2C%22https%3A%2F%2Fwww.baidu.com%2Flink%3Furl%3D57aywD0Q6WTnl7XKbIHuEyjr2fhNhzUbukAYUnqmpctowMOR8Q6mCG95WAPj1uJY%26wd%3D%26eqid%3Df1c6d005000db872000000045f56e401%22%5D; _pk_ses.100001.4cf6=*; ap_v=0,6.0; __utma=30149280.361671231.1587465102.1599446059.1599530217.5; __utmb=30149280.0.10.1599530217; __utmc=30149280; __utmz=30149280.1599530217.5.5.utmcsr=baidu|utmccn=(organic)|utmcmd=organic; __utma=223695111.48667557.1599446059.1599446059.1599530217.2; __utmb=223695111.0.10.1599530217; __utmc=223695111; __utmz=223695111.1599530217.2.2.utmcsr=baidu|utmccn=(organic)|utmcmd=organic; _pk_id.100001.4cf6=ae0e18afc045976b.1599446058.2.1599530449.1599446537.'}    html=requests.get(url,headers=headers)    soup=bs4.BeautifulSoup(html.text)    data=[]    web_name=soup.select('span.comment-info > a')    short_text=soup.select('div.comment > p > span.short')    for i,j in zip(web_name,short_text):        name=i.get_text()        text=j.get_text()        data.append([name,text])        #保存一版只带评论的txt文件        with open('<八佰>影评.txt','a+') as f:            f.write(text)    f.close()    return(data)
for i in range(0,6):    #建立一个空的DataFrame    inidata=pd.DataFrame()     url=f'https://movie.douban.com/subject/26754233/comments?start={i*20}&limit=20&sort=new_score&status=P'    print(url)    time.sleep(0.5)    inidata=inidata.append(crawl(url))    inidata.to_csv('《八佰》豆瓣影评.csv',mode='a+',index=False)

得到数据如下:

做个词云吧,原图:

词云为:

好了,爬虫到此,Bye!

相关文章
|
4月前
|
数据采集 数据可视化 算法
【优秀python案例】基于Python的豆瓣电影TOP250爬虫与可视化设计与实现
本文设计并实现了一个基于Python的豆瓣电影TOP250爬虫与可视化系统,通过获取电影评分、评论并应用词云和饼图等可视化技术,为用户提供了电影评价的直观展示和深入分析。
864 3
【优秀python案例】基于Python的豆瓣电影TOP250爬虫与可视化设计与实现
|
JavaScript 大数据 应用服务中间件
Python网络爬虫(JSON, Phantomjs, selenium/Chromedirver,豆瓣电影、斗鱼直播、京东商城爬取)
python、python爬虫、网络爬虫、爬虫框架、selenium、requests、urllib、数据分析、大数据、爬虫爬取静态网页、爬虫基础、自动化测试、json、动态加载、反爬虫
3535 0
|
2月前
|
数据采集 开发者
爬虫案例—抓取豆瓣电影的电影名称、评分、简介、评价人数
爬虫案例—抓取豆瓣电影的电影名称、评分、简介、评价人数
124 0
|
6月前
|
数据采集 存储 JavaScript
(2024)豆瓣电影详情内容爬虫详解和源码
这是一个Python爬虫程序,用于抓取豆瓣电影详情页面如`https://movie.douban.com/subject/1291560/`的数据。它首先发送GET请求,使用PyQuery解析DOM,然后根据`&lt;br&gt;`标签分割HTML内容,提取电影信息如导演、演员、类型等,并将中文键转换为英文键存储在字典中。完整代码包括请求、解析、数据处理和测试部分。当运行时,会打印出电影详情,如导演、演员列表、类型、时长等。
129 1
 (2024)豆瓣电影详情内容爬虫详解和源码
|
6月前
|
数据采集 存储 JavaScript
(2024)豆瓣电影TOP250爬虫详细讲解和代码
这是一个关于如何用Python爬取2024年豆瓣电影Top250的详细教程。教程涵盖了生成分页URL列表和解析页面以获取电影信息的函数。`getAllPageUrl()` 生成前10页的链接,而`getMoiveListByUrl()` 使用PyQuery解析HTML,提取电影标题、封面、评价数和评分。代码示例展示了测试这些函数的方法,输出包括电影详情的字典列表。
313 3
|
6月前
|
数据采集 存储 JSON
豆瓣电影信息爬虫实战-2024年6月
使用Python和`requests`、`PyQuery`库,本文教程教你如何编写一个豆瓣电影列表页面的爬虫,抓取电影标题、导演、主演等信息。首先确保安装所需库,然后了解技术栈,包括Python、Requests、PyQuery和正则表达式。爬虫逻辑包括发送HTTP请求、解析HTML、提取数据。代码示例展示了如何实现这一过程,最后运行爬虫并将结果保存为JSON文件。注意遵守网站使用条款和应对反爬策略。
203 2
|
7月前
|
数据采集 网络安全 UED
揭秘豆瓣网站爬虫:利用lua-resty-request库获取图片链接
本文探讨了如何使用Lua的lua-resty-request库和爬虫代理IP技术从豆瓣网站高效获取图片链接。通过定制请求头部和代理服务,可以应对反爬虫机制,提高爬虫的稳定性和匿名性。示例代码展示了一种方法,但实际应用需考虑版权和法律法规。
104 2
揭秘豆瓣网站爬虫:利用lua-resty-request库获取图片链接
|
数据采集 XML 存储
构建一个简单的电影信息爬虫项目:使用Scrapy从豆瓣电影网站爬取数据
这个案例展示了如何使用 Scrapy 框架构建一个简单的爬虫项目,从网页中提取数据并保存到文件中。通过配置、编写爬虫代码、定义数据模型和数据处理管道,你可以灵活地构建各种爬虫应用。
327 0
构建一个简单的电影信息爬虫项目:使用Scrapy从豆瓣电影网站爬取数据
|
数据采集
【详细步骤解析】爬虫小练习——爬取豆瓣Top250电影,最后以csv文件保存,附源码
【详细步骤解析】爬虫小练习——爬取豆瓣Top250电影,最后以csv文件保存,附源码
318 0
|
存储 数据采集
爬虫实例——爬取豆瓣网 top250 电影的信息
本节通过一个具体的实例来看下编写爬虫的具体过程。以爬取豆瓣网 top250 电影的信息为例,top250 电影的网址为:https://movie.douban.com/top250。在浏览器的地址栏里输入 https://movie.douban.com/top250,我们会看到如下内容:
260 0