当当网30日好评榜图书爬虫

简介: 当当网30日好评榜图书爬虫

今天,大家爬虫练个手:爬取当当网30日好评榜图书,具体网站为:

简单用个requests、bs4就搞定了,具体代码如下:


import requestsimport bs4import re
for i in range(1,26):    url = 'http://bang.dangdang.com/books/fivestars/01.00.00.00.00.00-recent30-0-0-1-' + str(i)    response = requests.get(url)    html=bs4.BeautifulSoup(response.text)    kk=html.select('ul > li > div.name > a')    for ii in kk:#         print(ii.text)        with open('book.txt','a+',encoding='utf-8') as f:            f.write(ii.text+'\n')

完工截图如下:

爬虫时不时拿出来练练手,免得手生了😄,bye!

相关文章
|
4月前
|
数据采集 Python
爬虫练手:某网图书畅销榜排名数据
爬虫练手:某网图书畅销榜排名数据
43 0
|
Web App开发 数据采集 存储
Python爬虫(一)——豆瓣下图书信息
爬虫目的:  随着近年互联网的发展,网络上的信息飞速数量增长。在庞大的数据面前想要获得期望的信息往往如同大海捞针。通过合理的筛选,在百万甚至数亿计的数据中找到所需信息,无疑有着非常大的意义。  在豆瓣网下,有很多与日常生活相关的模块网站    内置的评分评价功能可以为用户提供很大选择空间,以豆瓣读书为例:       其中包含六个大型模块(文学,流行,文化,生活,经管,科技),内部细分了145个小型模块。
2189 0
|
数据采集 Python
Python爬虫(二)——豆瓣图书决策树构建
Matplotlib绘制决策树代码: 1 # coding=utf-8 2 import matplotlib.
1505 0
|
数据采集 Python
Python爬虫(三)——对豆瓣图书各模块评论数与评分图形化分析
文化                         经管        ....略    结论: 一个模块的评分与评论数相关,评分为 [8.8——9.2] 之间的书籍评论数往往是模块中最多的  
1628 0
|
数据采集 Python
Scrapy爬虫(5)爬取当当网图书畅销榜
  本次将会使用Scrapy来爬取当当网的图书畅销榜,其网页截图如下:   我们的爬虫将会把每本书的排名,书名,作者,出版社,价格以及评论数爬取出来,并保存为csv格式的文件。
1976 0
|
Web App开发 存储 数据采集
一个抓取豆瓣图书的开源爬虫的详细步骤
简介 基于numpy和bs4的豆瓣图书爬虫,可以分类爬取豆瓣读书300多万本图书信息,包括标题、作者、定价、页数、出版信息等 github地址:https://github.com/lanbing510/DouBanSpider  项目作者:lanbing510 1 可以爬下豆瓣读书标签下的所有图.
3112 0
|
数据采集 JavaScript
Python-利用beautifulsoup写个豆瓣热门图书爬虫
  Anaconda3里边自带了bs4的包,省的我自己安装了。   最近觉得模块化的写法可以让代码变得清晰易读。而且随着代码的增多,找bug也会更方便。(目前我还写不出这么多)而且模块化有种工具化的思想,拿来主义的思想在里面,使用工具可是人等少数智慧动物的专利啊。
1348 0
|
2月前
|
数据采集 存储 JSON
Python网络爬虫:Scrapy框架的实战应用与技巧分享
【10月更文挑战第27天】本文介绍了Python网络爬虫Scrapy框架的实战应用与技巧。首先讲解了如何创建Scrapy项目、定义爬虫、处理JSON响应、设置User-Agent和代理,以及存储爬取的数据。通过具体示例,帮助读者掌握Scrapy的核心功能和使用方法,提升数据采集效率。
129 6
|
5月前
|
机器学习/深度学习 数据采集 数据可视化
基于爬虫和机器学习的招聘数据分析与可视化系统,python django框架,前端bootstrap,机器学习有八种带有可视化大屏和后台
本文介绍了一个基于Python Django框架和Bootstrap前端技术,集成了机器学习算法和数据可视化的招聘数据分析与可视化系统,该系统通过爬虫技术获取职位信息,并使用多种机器学习模型进行薪资预测、职位匹配和趋势分析,提供了一个直观的可视化大屏和后台管理系统,以优化招聘策略并提升决策质量。
273 4
|
6月前
|
数据采集 存储 JSON
从零到一构建网络爬虫帝国:HTTP协议+Python requests库深度解析
【7月更文挑战第31天】在网络数据的海洋中,使用Python的`requests`库构建网络爬虫就像探索未知的航船。HTTP协议指导爬虫与服务器交流,收集信息。HTTP请求包括请求行、头和体,响应则含状态行、头和体。`requests`简化了发送各种HTTP请求的过程。
105 4