利用 pyspider 框架抓取猫途鹰酒店信息

简介:   利用框架 pyspider 能实现快速抓取网页信息,而且代码简洁,抓取速度也不错。  环境:macOS;Python 版本:Python3。  1.首先,安装 pyspider 框架,使用pip3一键安装:pip3 pyspider 2.终端输入 pyspider all 启动 pyspider:打开 Chrome,地址栏输入 localhost:5000 进入 pyspider 框架的webui界面。

  利用框架 pyspider 能实现快速抓取网页信息,而且代码简洁,抓取速度也不错。

  环境:macOS;Python 版本:Python3。

  1.首先,安装 pyspider 框架,使用pip3一键安装:

pip3 pyspider

 

2.终端输入 pyspider all 启动 pyspider:

打开 Chrome,地址栏输入 localhost:5000 进入 pyspider 框架的webui界面。

点击 create ,创建 一个新的project。

 

3.创建完 project 后,我们便进入了代码调试界面。

这次我们要抓取的信息是猫途鹰网关于布拉格的酒店信息,把网址填入 on_star 一栏并替换掉 on_star , 点击 save 保存,点击左上角 run 选项,然后点击出现的网址右侧的箭头的选项:

便出现 index_page 的页面,我们点击 web 选项卡,出现网页内容后点击 enable css selector helper  ,选中酒店标题的超链接,这时上方便出现该标题的 CSS 选择器,把选择器内容复制粘贴替换掉右侧代码中的 a[href^="http"] ,save 后再次点击 run,但是 pyspider 的选择器并不一定准确,需要自己随时更改。这时我们便得到了我们想要的酒店标题超链接。

 

 

4.点击其中一个网页的右边的小箭头,进入详情页界面,我们要获取的信息便是详情页中的内容。类似的用 CSS 选择器获取酒店的信息,写入代码如下:

 def detail_page(self, response):
        url = response.url
        name = response.doc('.heading_title').text()
        rating = response.doc('.header_rating .taLnk').text()
        ranking = response.doc('.prw_common_header_pop_index > span').text()
        location = response.doc('.colCnt3').text()
        phone = response.doc('.blEntry.phone > span:nth-child(2)').text()
        grade = response.doc('.overallRating').text()
        return {
            "url": url,
            "name": name,
            "rating": rating,
            "ranking": ranking,
            "location": location,
            "phone": phone,
            "grade": grade
       
        }

便返回酒店链接,名称,点评,排名,地址,电话,评分这七个信息,保存后点击 run,我们便能看到打印的信息。

 

5.存储信息到 MongoDB:

import pymongo

client = pymongo.MongoClient('localhost')
db = client['trip']

def on_result(self, result):
    if result:
        self.save_to_mongo(result)

def save_to_mongo(self, result):
    if self.db['布拉格'].insert(result):
        print('存储到 MongoDB 成功', result)

 

6.模拟翻页抓取多页面:

在 index_page(self, response) 函数中插入:

next = response.doc('.pagination .nav.next').attr.href
self.crawl(next, callback=self.index_page)

 

7.到这时,我们代码便写完了,退出 project ,在控制面板中 status 栏更改方式为 DEBUG ,点击 run,运行代码,Active Tasks 可以查看当前任务。

 

8.存储到MongoDB 的信息。

 

到现在,我们便完成了对猫途鹰网上布拉格酒店信息的爬取。

 

参考文档:http://docs.pyspider.org

 

代码 github 地址:https://github.com/weixuqin/PythonProjects/blob/master/pyspider/spider.py

相关文章
|
3月前
|
数据采集 数据可视化 数据挖掘
Python爬虫实战:抓取网站数据并生成报表
本文将介绍如何使用Python编写简单而高效的网络爬虫,从指定的网站上抓取数据,并利用数据分析库生成可视化报表。通过学习本文内容,读者将能够掌握基本的爬虫技术和数据处理方法,为日后开发更复杂的数据采集与分析工具打下坚实基础。
|
2月前
|
数据采集 存储 数据挖掘
Python网络爬虫实战:抓取并分析网页数据
使用Python的`requests`和`BeautifulSoup`,本文演示了一个简单的网络爬虫,抓取天气网站数据并进行分析。步骤包括发送HTTP请求获取HTML,解析HTML提取温度和湿度信息,以及计算平均温度。注意事项涉及遵守robots.txt、控制请求频率及处理动态内容。此基础爬虫展示了数据自动收集和初步分析的基础流程。【6月更文挑战第14天】
161 9
|
3月前
|
数据采集 JavaScript 开发者
使用Scrapy有效爬取某书广告详细过程
使用Scrapy有效爬取某书广告详细过程
使用Scrapy有效爬取某书广告详细过程
|
11月前
|
数据采集 Web App开发 JavaScript
使用Puppeteer爬取地图上的用户评价和评论
在互联网时代,获取用户的反馈和意见是非常重要的,它可以帮助我们了解用户的需求和喜好,提高我们的产品和服务质量。有时候,我们需要从地图上爬取用户对某些地点或商家的评价和评论,这样我们就可以分析用户对不同地区或行业的态度和偏好。但是,如何从地图上爬取用户评价和评论呢?本文将介绍一种使用Puppeteer的方法,它是一个基于Node.js的库,可以控制Chrome或Chromium浏览器进行各种操作
使用Puppeteer爬取地图上的用户评价和评论
|
11月前
|
数据采集 存储 数据可视化
如何使用Scrapy框架抓取电影数据
如何使用Scrapy框架抓取电影数据
|
数据采集 XML 存储
构建一个简单的电影信息爬虫项目:使用Scrapy从豆瓣电影网站爬取数据
这个案例展示了如何使用 Scrapy 框架构建一个简单的爬虫项目,从网页中提取数据并保存到文件中。通过配置、编写爬虫代码、定义数据模型和数据处理管道,你可以灵活地构建各种爬虫应用。
277 0
构建一个简单的电影信息爬虫项目:使用Scrapy从豆瓣电影网站爬取数据
|
存储 数据采集 关系型数据库
python爬虫爬取房源信息
写这篇博客的原因是在我爬取房产这类数据信息的时候,发现csdn中好多博主写的关于此类的文章代码已经不适用,因为好多房产网站代码已经更改,使用老的代码明显爬取不到所需要的房产信息。......
224 1
python爬虫爬取房源信息
|
数据采集 自然语言处理 前端开发
Python爬虫:网络信息爬取与处理知识梳理
Python爬虫:网络信息爬取与处理知识梳理
201 0
|
数据采集 Python Web App开发
知乎高颜值图片抓取到本地(Python3 爬虫.人脸检测.颜值检测)
本文代码有参考其他文章 原文链接:https://zhuanlan.zhihu.com/p/34425618
845 0
知乎高颜值图片抓取到本地(Python3 爬虫.人脸检测.颜值检测)