豆瓣图书TOP250爬取

简介: 豆瓣图书TOP250爬取

本期,我们实现对豆瓣图书TOP250榜单的爬取,爬取的网站如下:

我们爬取图书名称、作者、出版社、评分、评论人数等信息并保存到Excel文件中,具体代码为:


from bs4 import BeautifulSoupimport requestsimport pandas as pdimport re
def get_html(url):    header = {        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:47.0) Gecko/20100101 Firefox/47.0'}    html = requests.get(url, headers=header).content    return html
def get_con(html):    soup = BeautifulSoup(html,'html.parser')    book_list = soup.find('div', attrs={'class': 'article'})    data= []    for i in book_list.find_all('table'):        #print(i)        #获取书名        book_name = i.find('div', attrs={'class': 'pl2'})        book_details=i.find('p').get_text()        #获取作者、出版社、出版日期、价格、评分、评论人数相关数据        author=book_details.split('/')[:-3]        publisher=book_details.split('/')[-3]        pb_date=book_details.split('/')[-2]        price=book_details.split('/')[-1]        rate=i.find('span',attrs={'class':'rating_nums'}).get_text()        rate_comments=re.findall('\d+',i.find('span',attrs={'class':'pl'}).get_text())[0]+'人评论'        m = list(book_name.find('a').stripped_strings)        if len(m)>1:            x = m[0]+m[1]        else:            x = m[0]                data.append([x,author,publisher,pb_date,price,rate,rate_comments])#     print(data)    return data
if __name__ == '__main__':    all_list=pd.DataFrame()     for i in range(0,10):        url=f"https://book.douban.com/top250?start={i*25}"        print(url)        html= get_html(url)        data= get_con(html)        all_list=all_list.append(data)    #print(all_list)    all_list.columns=['名称','作者','出版社','出版日期','价格','豆瓣评分','评论人数']    all_list.to_excel('豆瓣图书TOP250.xlsx',index=False)

爬取效果:


OK,本期的爬虫就到这里,Bye!

相关文章
|
7月前
|
Python
pythonSpider_urllib获取豆瓣电影top250信息写入excel
pythonSpider_urllib获取豆瓣电影top250信息写入excel
66 0
|
6月前
|
数据采集 存储 JavaScript
(2024)豆瓣电影TOP250爬虫详细讲解和代码
这是一个关于如何用Python爬取2024年豆瓣电影Top250的详细教程。教程涵盖了生成分页URL列表和解析页面以获取电影信息的函数。`getAllPageUrl()` 生成前10页的链接,而`getMoiveListByUrl()` 使用PyQuery解析HTML,提取电影标题、封面、评价数和评分。代码示例展示了测试这些函数的方法,输出包括电影详情的字典列表。
336 3
|
6月前
|
存储 数据可视化
豆瓣电影Top250的可视化分析
本文旨在实现豆瓣电影TOP250的可视化,通过确定柱状图、折线图和饼图等图表设计,展示评价人数最多、年份分布及类型占比。模拟数据用于演示,例如评价最多的电影、年份最多的电影数量及每年高分电影趋势。完整代码可下载,包含ECharts实现的四种图表。
336 0
豆瓣电影Top250的可视化分析
|
6月前
|
数据采集 存储 JSON
豆瓣电影信息爬虫实战-2024年6月
使用Python和`requests`、`PyQuery`库,本文教程教你如何编写一个豆瓣电影列表页面的爬虫,抓取电影标题、导演、主演等信息。首先确保安装所需库,然后了解技术栈,包括Python、Requests、PyQuery和正则表达式。爬虫逻辑包括发送HTTP请求、解析HTML、提取数据。代码示例展示了如何实现这一过程,最后运行爬虫并将结果保存为JSON文件。注意遵守网站使用条款和应对反爬策略。
217 2
|
JavaScript 数据处理 Python
nodejs | 看看豆瓣Top250电影有哪些?
前面写了`Python` 的版本,然后用 `nodejs` 页写一个吧!
|
数据采集 XML 存储
构建一个简单的电影信息爬虫项目:使用Scrapy从豆瓣电影网站爬取数据
这个案例展示了如何使用 Scrapy 框架构建一个简单的爬虫项目,从网页中提取数据并保存到文件中。通过配置、编写爬虫代码、定义数据模型和数据处理管道,你可以灵活地构建各种爬虫应用。
327 0
构建一个简单的电影信息爬虫项目:使用Scrapy从豆瓣电影网站爬取数据
|
存储 数据采集
爬虫实例——爬取豆瓣网 top250 电影的信息
本节通过一个具体的实例来看下编写爬虫的具体过程。以爬取豆瓣网 top250 电影的信息为例,top250 电影的网址为:https://movie.douban.com/top250。在浏览器的地址栏里输入 https://movie.douban.com/top250,我们会看到如下内容:
260 0
|
数据采集 Java Python
Python爬虫之多线程下载豆瓣Top250电影图片
爬虫项目介绍   本次爬虫项目将爬取豆瓣Top250电影的图片,其网址为:https://movie.douban.com/top250, 具体页面如下图所示:   本次爬虫项目将分别不使用多线程和使用多线程来完成,通过两者的对比,显示出多线程在爬虫项目中的巨大优势。
2468 0
|
数据采集 Python
python爬虫爬取豆瓣电影排行榜
爬虫爬取豆瓣电影排行榜
|
存储 数据采集 开发者
简单分析豆瓣电影top250
大家好,今天打开了豆瓣电影网,突然想看看前250名的电影剧情都是那些类型的,评分都是多少,所以写了一个程序给大家一起来分享一下。
593 0
简单分析豆瓣电影top250