爬虫练手:某网图书畅销榜排名数据

简介: 爬虫练手:某网图书畅销榜排名数据

本期,练习一下python爬虫,长时间不写爬虫,写个简单的爬虫来练习一下。爬取一下某网图书畅销榜的排名并保存成Excel文件。

这个网站长这个样子:

具体代码为:


import requestsfrom bs4 import BeautifulSoupimport pandas as pdimport timeall_data=pd.DataFrame()def crawl(i):    url =f'http://bang.dangdang.com/books/bestsellers/1-{i}'    response = requests.get(url)    soup = BeautifulSoup(response.text, 'html.parser')    book_items = soup.select('.bang_list li')    temp=pd.DataFrame()    for item in book_items:        book_name = item.select('.name a')[0].text.strip()        pic=item.select('.pic > a > img')[0].get('src')        star=item.select('.star a')[0].text.strip()        author = item.select('.publisher_info')[0].text.strip().split('/')[0]        press = item.select('.publisher_info')[1].text.strip().split('\xa0')[-1]        price_r = item.select('.price_r')[0].text.strip()        price_n = item.select('.price_n')[0].text.strip()        data=[{'书名':book_name,'图片':pic,'评论数':star,'作者':author,               '出版社':press,'原价':price_r, '现价':price_n }]        temp=temp.append(data)    return tempfor i in range(1,26):    all_data=all_data.append(crawl(i))    time.sleep(0.5)all_data.to_excel('当当网图书畅销榜排名.xlsx',index=False)

跑一遍,得到的Excel为:

8e4c6fb059200254611682130f27ae9a.png

爬虫时不时要拿出来练习一下,不然很容易忘掉

相关文章
|
7月前
|
数据采集 NoSQL 关系型数据库
Python爬虫去重策略:增量爬取与历史数据比对
Python爬虫去重策略:增量爬取与历史数据比对
|
5月前
|
数据采集 Web App开发 JavaScript
Python爬虫解析动态网页:从渲染到数据提取
Python爬虫解析动态网页:从渲染到数据提取
|
数据采集 API 数据处理
Objective-C 音频爬虫:实时接收数据的 didReceiveData: 方法
Objective-C 音频爬虫:实时接收数据的 didReceiveData: 方法
|
7月前
|
数据采集 存储 缓存
Python爬虫与代理IP:高效抓取数据的实战指南
在数据驱动的时代,网络爬虫是获取信息的重要工具。本文详解如何用Python结合代理IP抓取数据:从基础概念(爬虫原理与代理作用)到环境搭建(核心库与代理选择),再到实战步骤(单线程、多线程及Scrapy框架应用)。同时探讨反爬策略、数据处理与存储,并强调伦理与法律边界。最后分享性能优化技巧,助您高效抓取公开数据,实现技术与伦理的平衡。
344 4
|
7月前
|
数据采集 搜索推荐 API
Python 原生爬虫教程:京东商品列表页面数据API
京东商品列表API是电商大数据分析的重要工具,支持开发者、商家和研究人员获取京东平台商品数据。通过关键词搜索、分类筛选、价格区间等条件,可返回多维度商品信息(如名称、价格、销量等),适用于市场调研与推荐系统开发。本文介绍其功能并提供Python请求示例。接口采用HTTP GET/POST方式,支持分页、排序等功能,满足多样化数据需求。
|
8月前
|
Web App开发 数据采集 前端开发
Python + Chrome 爬虫:如何抓取 AJAX 动态加载数据?
Python + Chrome 爬虫:如何抓取 AJAX 动态加载数据?
|
8月前
|
数据采集 XML 存储
Python爬虫实战:一键采集电商数据,掌握市场动态!
这个爬虫还挺实用,不光能爬电商数据,改改解析规则,啥数据都能爬。写爬虫最重要的是要有耐心,遇到问题别着急,慢慢调试就成。代码写好了,运行起来那叫一个爽,分分钟几千条数据到手。
|
7月前
|
数据采集 API 数据格式
Python 原生爬虫教程:京东商品详情页面数据API
本文介绍京东商品详情API在电商领域的应用价值及功能。该API通过商品ID获取详细信息,如基本信息、价格、库存、描述和用户评价等,支持HTTP请求(GET/POST),返回JSON或XML格式数据。对于商家优化策略、开发者构建应用(如比价网站)以及消费者快速了解商品均有重要意义。研究此API有助于推动电商业务创新与发展。
|
9月前
|
数据采集 JSON Java
Java爬虫获取微店快递费用item_fee API接口数据实现
本文介绍如何使用Java开发爬虫程序,通过微店API接口获取商品快递费用(item_fee)数据。主要内容包括:微店API接口的使用方法、Java爬虫技术背景、需求分析和技术选型。具体实现步骤为:发送HTTP请求获取数据、解析JSON格式的响应并提取快递费用信息,最后将结果存储到本地文件中。文中还提供了完整的代码示例,并提醒开发者注意授权令牌、接口频率限制及数据合法性等问题。