爬虫练手:某网图书畅销榜排名数据

简介: 爬虫练手:某网图书畅销榜排名数据

本期,练习一下python爬虫,长时间不写爬虫,写个简单的爬虫来练习一下。爬取一下某网图书畅销榜的排名并保存成Excel文件。

这个网站长这个样子:

具体代码为:


import requestsfrom bs4 import BeautifulSoupimport pandas as pdimport timeall_data=pd.DataFrame()def crawl(i):    url =f'http://bang.dangdang.com/books/bestsellers/1-{i}'    response = requests.get(url)    soup = BeautifulSoup(response.text, 'html.parser')    book_items = soup.select('.bang_list li')    temp=pd.DataFrame()    for item in book_items:        book_name = item.select('.name a')[0].text.strip()        pic=item.select('.pic > a > img')[0].get('src')        star=item.select('.star a')[0].text.strip()        author = item.select('.publisher_info')[0].text.strip().split('/')[0]        press = item.select('.publisher_info')[1].text.strip().split('\xa0')[-1]        price_r = item.select('.price_r')[0].text.strip()        price_n = item.select('.price_n')[0].text.strip()        data=[{'书名':book_name,'图片':pic,'评论数':star,'作者':author,               '出版社':press,'原价':price_r, '现价':price_n }]        temp=temp.append(data)    return tempfor i in range(1,26):    all_data=all_data.append(crawl(i))    time.sleep(0.5)all_data.to_excel('当当网图书畅销榜排名.xlsx',index=False)

跑一遍,得到的Excel为:

8e4c6fb059200254611682130f27ae9a.png

爬虫时不时要拿出来练习一下,不然很容易忘掉

相关文章
|
24天前
|
数据采集 API 数据处理
Objective-C 音频爬虫:实时接收数据的 didReceiveData: 方法
Objective-C 音频爬虫:实时接收数据的 didReceiveData: 方法
|
2月前
|
数据采集 存储 监控
网络爬虫的最佳实践:结合 set_time_limit() 与 setTrafficLimit() 抓取云盘数据
本文探讨了如何利用 PHP 的 `set_time_limit()` 与爬虫工具的 `setTrafficLimit()` 方法,结合多线程和代理 IP 技术,高效稳定地抓取百度云盘的公开资源。通过设置脚本执行时间和流量限制,使用多线程提高抓取效率,并通过代理 IP 防止 IP 封禁,确保长时间稳定运行。文章还提供了示例代码,展示了如何具体实现这一过程,并加入了数据分类统计功能以监控抓取效果。
67 16
网络爬虫的最佳实践:结合 set_time_limit() 与 setTrafficLimit() 抓取云盘数据
|
1月前
|
消息中间件 数据采集 数据库
小说爬虫-03 爬取章节的详细内容并保存 将章节URL推送至RabbitMQ Scrapy消费MQ 对数据进行爬取后写入SQLite
小说爬虫-03 爬取章节的详细内容并保存 将章节URL推送至RabbitMQ Scrapy消费MQ 对数据进行爬取后写入SQLite
24 1
|
1月前
|
数据采集 数据挖掘 数据处理
Python中实现简单爬虫并处理数据
【9月更文挑战第31天】本文将引导读者理解如何通过Python创建一个简单的网络爬虫,并展示如何处理爬取的数据。我们将讨论爬虫的基本原理、使用requests和BeautifulSoup库进行网页抓取的方法,以及如何使用pandas对数据进行清洗和分析。文章旨在为初学者提供一个易于理解的实践指南,帮助他们快速掌握网络数据抓取的基本技能。
57 3
|
2月前
|
数据采集 Python
天天基金数据的Python爬虫
天天基金数据的Python爬虫
46 3
|
2月前
|
数据采集 存储 JavaScript
构建您的第一个Python网络爬虫:抓取、解析与存储数据
【9月更文挑战第24天】在数字时代,数据是新的金矿。本文将引导您使用Python编写一个简单的网络爬虫,从互联网上自动抓取信息。我们将介绍如何使用requests库获取网页内容,BeautifulSoup进行HTML解析,以及如何将数据存储到文件或数据库中。无论您是数据分析师、研究人员还是对编程感兴趣的新手,这篇文章都将为您提供一个实用的入门指南。拿起键盘,让我们开始挖掘互联网的宝藏吧!
|
2月前
|
数据采集 JSON 数据格式
Python:南京地铁每日客流数据的爬虫实现
Python:南京地铁每日客流数据的爬虫实现
63 1
|
1月前
|
数据采集 Web App开发 JSON
爬虫实战小案例—获取喜马拉雅账号的关注数据和粉丝数据生成电子表格并实现批量关注或者取关然后生成表格文件
爬虫实战小案例—获取喜马拉雅账号的关注数据和粉丝数据生成电子表格并实现批量关注或者取关然后生成表格文件
|
1月前
|
数据采集
爬虫案例—抓取找歌词网站的按歌词找歌名数据
爬虫案例—抓取找歌词网站的按歌词找歌名数据
|
2月前
|
数据采集
当当网30日好评榜图书爬虫
当当网30日好评榜图书爬虫
44 0