爬虫入门

简介: 1. 爬虫是什么爬虫(Spider),这里当然不是说结网捉虫的蜘蛛那样的生物学上的爬虫,这里说的是互联网上的爬虫,由程序员编写,具有一定的逻辑性能够完成在指定范围内进行信息收集的程序。据说爬虫占据了互联网上60%多的流量,可想而知这个无比庞大的互联网上有多少只辛辛苦苦矜矜业业的爬虫们啊。

1. 爬虫是什么

爬虫(Spider),这里当然不是说结网捉虫的蜘蛛那样的生物学上的爬虫,这里说的是互联网上的爬虫,由程序员编写,具有一定的逻辑性能够完成在指定范围内进行信息收集的程序。

据说爬虫占据了互联网上60%多的流量,可想而知这个无比庞大的互联网上有多少只辛辛苦苦矜矜业业的爬虫们啊。

爬虫,主要分为搜索引擎类的爬虫和具有一定目标的专用爬虫。前者索引整个web世界,让人们能方便的搜索到自己想要的信息,一般网站也很欢迎这些爬虫。而后者有时候目的性比较强,爬取范围也比较窄,一般收集数据用于二次加工或者数据分析等。这里主要讲的就是第二种爬虫。

2. 爬虫怎么工作

爬虫的工作很简单,一句话概括就是找到目标入口然后在目标页面获取目标内容。

爬虫的原理也不复杂,主要是通过http或者其他协议,发送请求到目标接口,然后解析返回的内容成结构化数据存储到本地。

3. 怎么制作爬虫

制作一个爬虫基本需要如下步骤:

  • 确定目标:
    制作爬虫首先需要清楚自己的目的,希望获取哪些信息。
  • 观察目标:
    然后通过观察目标网站或者程序,获取目标信息的入口和索引方式。
  • 结构提取:
    进入内容页面,观察感兴趣区域的页面结构,然后考虑通过正则表达式或者xpath等方式提取目标内容。
  • 编码实现:
    前3步完成之后,最后就是使用线程工具或者自己编码实现这个爬虫了。

完成这些,基本上就可以认为制作出来一个网络爬虫了,然后就是让这个爬虫启动运行起来。至于怎么处理爬到的数据,那就不是爬虫的事了。

下面介绍2种爬虫制作方法。

4. 使用工具制作爬虫

由于爬虫这种需求比较多,所以网络上有一些专门的工具,能通过简单的配置就能制作爬虫。

推荐一个国内软件商制作的比较傻瓜式的爬虫生成工具:火车采集器,免费版基本就够用了。

具体用法参考其视频教程,基本上看完视频就能知道怎么用了。

这个对于一些简单的场景基本够用了,主要优势是配置简单,搭建方便,傻瓜化运行。

5. 编写代码制作爬虫

在现有工具无法满足需求或者想要学习爬虫的原理的时候,也可以通过编写代码来制作爬虫。

当然,也不需要要从tcp/ip或者http协议这么底层开始,可以通过一些开源的爬虫框架来编写爬虫。其中以python语言作为基础的爬虫框架比较多,这里以scrapy为例。

scrapy是一个开源的python爬虫框架,也是目前最流行的爬虫框架之一,里面集成了一些爬虫常用的功能,基本上只需要写爬虫的逻辑就行。


以一个最简单的例子来说明scrapy的用法。

5.1 确定目标

需要有一个爬虫每天去查询百度搜索“爬虫”的前2页搜索结果,然后分析新排序到前2页的搜索结果(其他后处理)。

5.2 观察目标

首先在百度输入“爬虫”搜索,跳转到搜索结果页。观察结果页面的URL结果,可以看到:

URL里面有不少参数,可能用不着,所以试着简化这个URL:

那么爬虫的入口就知道了。

5.3 结构提取

scrapy用的是xpath做结构解析,所以这里需要获取到目标区域的xpath。xpath是什么参考这里

chrome浏览器有一个很好的插件可以很方便的获取到某个html节点的xpath,XPath Helper,先安装好它。

打开chrome,输入URL(https://www.baidu.com/s?wd=爬虫&pn=0),然后F12进入开发者模式。通过鼠标找到第1个搜索结果的html节点,然后右键:copy-Copy XPath。

得到搜索结果html节点的xpath分别是:

第1页1-10搜索结果:
//*[@id="1"]/h3/a
//*[@id="2"]/h3/a
...
//*[@id="10"]/h3/a
第2页11-20搜索结果:
//*[@id="11"]/h3/a
//*[@id="12"]/h3/a
...
//*[@id="20"]/h3/a

那么目标区域的xpath就很明显了,获取到xpath之后得到href属性和text结果就行了。

当然也可以通过其他的xpath获取到这些节点位置,这个并不是唯一的。

5.4 编码实现

scrapy安装这里不再赘述,通过pip install scrapy即可安装,国内可以把pip的源设置为阿里云或者豆瓣的源,然后执行上述命令安装。

本节全部代码在:baidu_spider

进入工作目录,命令行输入:

scrapy startproject baidu_spider

然后进入baidu_spider目录,打开items.py,输入如下代码:

# -*- coding: utf-8 -*-
import scrapy

class BaiduSpiderItem(scrapy.Item):
    # define the fields for your item here
    #搜索结果的标题
    title = scrapy.Field()
    #搜索结果的url
    url = scrapy.Field()

这里定义的是爬虫爬取结果的结构,包含搜索结果的标题和搜索结果的url。

打开settings.py,修改下面行:

#ROBOTSTXT_OBEY = True
ROBOTSTXT_OBEY = False

这个修改是因为百度的robots.txt禁止其他爬虫去爬它,所以需要把robots协议这个君子协定暂时单方面关掉。

然后进入spider目录,新建baiduSpider.py,输入下面代码:

# -*- coding: UTF-8 -*-
import scrapy
from scrapy.spiders import CrawlSpider
from scrapy.selector import Selector
from scrapy.http import Request
from baidu_spider.items import BaiduSpiderItem
from selenium import webdriver
import time

class BaiduSpider(CrawlSpider):
    name='baidu_spider'

    def start_requests(self):
        #函数名不可更改,此函数定义了爬虫的入口地址
        #使用浏览器访问
        self.browser = webdriver.Chrome('d:/software/chromedriver.exe')
        for i in range(0,20,10):
            url = 'https://www.baidu.com/s?wd=爬虫&pn=%d' % i
            yield self.make_requests_from_url(url)

    def parse(self, response):
        #函数名不可更改,此函数定义了爬虫的页面解析
        #打开浏览器访问页面
        self.browser.get(response.url)
        time.sleep(1)
        selector = Selector(text=self.browser.page_source)
        page_start = int(response.url.split('=')[-1])

        for i in range(1,11):
            item = BaiduSpiderItem()        
            xpath = '//*[@id="%d"]/h3/a' % (page_start+i)      
            print xpath
            print selector.xpath(xpath + '/@href').extract()
            item['url'] = selector.xpath(xpath + '/@href').extract()[0]           
            item['title'] = selector.xpath(xpath + '//text()').extract()           
            yield item

这里用到了selenium和chrome webdriver,用于使用chrome模拟正常用户的访问,这是因为百度做了防爬虫的措施,所以为了简单,我们就假装我们的爬虫就是正常用户。

selenium通过pip安装即可,chrome webdriver在此处下载,然后安装上。把baiduSpider.py中的webdriver.Chrome行中的可执行文件地址改成自己的安装地址。

全部代码编写完毕,在scrapy.cfg那一层目录(顶层)中输入下面的命令启动爬虫:

scrapy crawl baidu_spider -o result.csv

一切顺利的话会输出一些log,并且启动chrome打开网页,最后生成result.csv文件,文件内包含了爬取到的结果。

本节全部代码在:baidu_spider

6. 爬虫进阶

爬虫的进阶就是需要与数据来源方斗智斗勇了,处理包括但不限于以下问题:

  • IP被封禁
  • 访问次数受限制
  • 爬取速度太慢
  • 页面重定向
  • 页面ajax生成内容
  • 页面内容由复杂的javascript生成
  • etc.
目录
相关文章
|
1月前
|
数据采集 存储 前端开发
【爬虫pyspider教程】1.pyspider入门与基本使用
爬虫框架pyspider入门和基本用法。
42 0
|
1月前
|
数据采集 Web App开发 数据处理
Ruby网络爬虫教程:从入门到精通下载图片
Ruby网络爬虫教程:从入门到精通下载图片
|
3月前
|
数据采集 存储 机器人
Scrapy网络爬虫框架——从入门到实践
网络爬虫已经成为了信息获取的必备工具之一,而Scrapy作为Python中最流行的网络爬虫框架之一,具有高效、可扩展、易用等特点。本文将深入介绍Scrapy框架的概念和实践,帮助读者快速掌握构建高质量网络爬虫的方法。
50 0
|
3月前
|
数据采集 存储 调度
Scrapy:从入门到实践的网络爬虫框架
Scrapy是一款强大的Python网络爬虫框架,可以帮助开发者更高效地抓取互联网上的数据。本文将介绍Scrapy的概念和基本原理,详细讲解如何使用Scrapy框架实现一个简单的网络爬虫,并分享一些实战经验和技巧。
|
4月前
|
数据采集 XML 数据格式
python爬虫入门篇:如何解析爬取到的网页数据?试下最简单的BeautifulSoup库!
前面笔记解析了如何使用requests模块向网站发送http请求,获取到网页的HTML数据。这篇我们来如何使用BeautifulSoup模块来从HTML文本中提取我们想要的数据。Beautiful Soup,简称bs4,是Python的一个HTML或XML的解析库,一般用它来从网页中提取数据。
58 1
|
8月前
|
数据采集 存储 JSON
【Python入门系列】第十二篇:Python网络爬虫和数据抓取
网络爬虫是一种自动化程序,通过模拟人类浏览器的行为,自动访问网页并提取数据。Python提供了许多库和工具,使得编写网络爬虫变得相对简单。其中,常用的库包括requests、BeautifulSoup和Scrapy等。
205 2
|
11月前
|
数据采集 存储 机器人
网络爬虫的入门及爬取图片,文章,音频
>持续创作,加速成长!这是我参与「掘金日新计划 · 10 月更文挑战」的第22天,[点击查看活动详情](https://juejin.cn/post/7147654075599978532 "https://juejin.cn/post/7147654075599978532") # 引言 今天带来一篇python的网络爬虫 # 网络爬虫的介绍 > 网络爬虫(又称为网页蜘蛛,[网络](https://baike.baidu.com/item/%E7%BD%91%E7%BB%9C/143243?fromModule=lemma_inlink)机器人,在[FOAF](https://bai
|
数据采集 XML NoSQL
「Python」爬虫-1.入门知识简介
> 本文主要介绍了爬虫相关的入门知识。 > 本文目录 > > - 爬取小猫的图片 > - 写入文件相关 > - 正则表达式简介 > - bs4解析
131 0
|
数据采集 XML 前端开发
Python爬虫入门BeautifulSoup模块
Python爬虫入门BeautifulSoup模块
114 0