网络爬虫(1)

本文涉及的产品
公共DNS(含HTTPDNS解析),每月1000万次HTTP解析
云解析 DNS,旗舰版 1个月
全局流量管理 GTM,标准版 1个月
简介:
算法分析

    我们现在从需求中提取关键词来逐步分析问题。

    首先是“种子节点”。它就是一个或多个在爬虫程序运行前手动给出的URL(网址),爬虫正是下载并解析这些种子URL指向的页面,从中提取出新的URL,然后重复以上的工作,直到达到设定的条件才停止。

    然后是“特定的策略”。这里所说的策略就是以怎样的顺序去请求这些URL。如下图是一个简单的页面指向示意图(实际情况远比这个复杂),页面A是种子节点,当然最先请求。但是剩下的页面该以何种顺序请求呢?我们可以采用深度优先遍历策略,通俗讲就是一条路走到底,走完一条路才再走另一条路,在下图中就是按A,B,C,F,D,G,E,H的顺序访问。我们也可以采用宽度优先遍历策略,就是按深度顺序去遍历,在下图中就是按A,B,C,D,E,F,G,H的顺序请求各页面。还有许多其他的遍历策略,如Google经典的PageRank策略,OPIC策略策略,大站优先策略等,这里不一一介绍了。我们还需要注意的一个问题是,很有可能某个页面被多个页面同时指向,这样我们可能重复请求某一页面,因此我们还必须过滤掉已经请求过的页面。          image

    最后是“设定的条件”,爬虫程序终止的条件可以根据实际情况灵活设置,比如设定爬取时间,爬取数量,爬行深度等。

    到此,我们分析完了爬虫如何开始,怎么运作,如何结束(当然,要实现一个强大,完备的爬虫要考虑的远比这些复杂,这里只是入门分析),下面给出整个运作的流程图:

                   image

 数据结构分析

    根据以上的分析,我们需要用一种数据结构来保存初始的种子URL和解析下载的页面得到的URL,并且我们希望先解析出的URL先执行请求,因此我们用队列来储存URL。因为我们要频繁的添加,取出URL,因此我们采用链式存储。下载的页面解析后直接原封不动的保存到磁盘。

 技术分析

    所谓网络爬虫,我们当然要访问网络,我们这里使用jsoup,它对http请求和html解析都做了良好的封装,使用起来十分方便。根据数据结构分析,我们用LinkedList实现队列,用来保存未访问的URL,用HashSet来保存访问过的URL(因为我们要大量的判断该URL是否在该集合内,而HashSet用元素的Hash值作为“索引”,查找速度很快)。

 

 代码

 

    以上分析,我们一共要实现2个类:

 

   ① JsoupDownloader,该类是对Jsoup做一个简单的封装,方便调用。暴露出以下几个方法:

—public Document downloadPage(String url);根据url下载页面

—public Set<String> parsePage(Document doc, String regex);从Document中解析出匹配regex的url。

—public void savePage(Document doc, String saveDir, String saveName, String regex);保存匹配regex的url对应的Document到指定路径。

 

    ② UrlQueue,该类用来保存和获取URL。暴露出以下几个方法:

—public void enQueue(String url);添加url。

—public String deQueue();取出url。

—public int getVisitedCount();获取访问过的url的数量;


package com.hjzgg.spider;

import java.io.File;
import java.io.FileNotFoundException;
import java.io.IOException;
import java.io.PrintWriter;
import java.net.SocketTimeoutException;
import java.util.HashSet;
import java.util.Map;
import java.util.Set;

import org.jsoup.Connection;
import org.jsoup.Connection.Response;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

public class JsoupDownloader {

    public static final String DEFAULT_SAVE_DIR = "c:/download/";
    private static JsoupDownloader downloader;

    private JsoupDownloader() {
    }

    public static JsoupDownloader getInstance() {
        if (downloader == null) {
            synchronized (JsoupDownloader.class) {
                if (downloader == null) {
                    downloader = new JsoupDownloader();
                }
            }
        }
        return downloader;
    }

    public Document downloadPage(String url) {
        try {
            System.out.println("正在下载" + url);
            Connection connection = Jsoup.connect(url);
            connection.timeout(1000);
            connection.followRedirects(false);//默认是true,也就是连接遵循重定向!设置为false,对重定向的地址进行筛选
            Response response = connection.execute();
            Map<String, String> headers = response.headers();
            System.out.println(response.statusCode() + " " + response.statusMessage());
            if(response.statusCode()==301 || response.statusCode()==302){////重定向地址,位于信息头header中
                Main.urlQueue.enQueue(headers.get("Location"));
            } else if(response.statusCode() == 404){
                //或者一些其他的错误信息,直接将改地址丢弃
                return null;
            }
            for(String name : headers.keySet())//在这里可以查看http的响应信息头信息
                System.out.println(name + " : " + headers.get(name));
            return connection.get();
        } catch(SocketTimeoutException e){//对于连接超时的url我们可以重新将其放入未访问url队列中
            Main.urlQueue.enQueueUrlTimeOut(url);
        }catch (IOException e) {
            e.printStackTrace();
        }
        return null;
    }

    public Set<String> parsePage(Document doc, String regex) {
        Set<String> urlSet = new HashSet<String>();
        if (doc != null) {
            Elements elements = doc.select("a[href]");
            for (Element element : elements) {
                String url = element.attr("href");
                if (url.length() > 6 && !urlSet.contains(url)) {
                    if (regex != null && !url.matches(regex)) {
                        continue;
                    }
                    if(!url.contains("http"))
                        url = doc.baseUri()+url;
                    urlSet.add(url);
                }
            }
        }
        return urlSet;
    }

    public void savePage(Document doc, String saveDir, String saveName, String regex) {
        if (doc == null) {
            return;
        }
        if (regex != null && doc.baseUri() != null && !doc.baseUri().matches(regex)) {
            return;
        }
        saveDir = saveDir == null ? DEFAULT_SAVE_DIR : saveDir;
        saveName = saveName == null ? doc.title().trim().replaceAll("[\\?/:\\*|<>\" ]", "_") + System.nanoTime() + ".html" : saveName;
        File file = new File(saveDir + "/" + saveName);
        File dir = file.getParentFile();
        if (!dir.exists()) {
            dir.mkdirs();
        }
        PrintWriter printWriter;
        try {
            printWriter = new PrintWriter(file);
            printWriter.write(doc.toString());
            printWriter.close();
        } catch (FileNotFoundException e) {
            e.printStackTrace();
        }
    }
}


package com.hjzgg.spider;

import java.util.Arrays;
import java.util.Collection;
import java.util.HashSet;
import java.util.LinkedList;
import java.util.NoSuchElementException;
import java.util.Set;

public class UrlQueue {

    private Set<String> visitedSet;// 用来存放已经访问过多url
    private LinkedList<String> unvisitedList;// 用来存放未访问过多url

    public UrlQueue(String[] seeds) {
        visitedSet = new HashSet<String>();
        unvisitedList = new LinkedList<String>();
        unvisitedList.addAll(Arrays.asList(seeds));
    }

    /**
     * 添加url
     * 
     * @param url
     */
    public void enQueue(String url) {
        if (url != null && !visitedSet.contains(url)) {
            unvisitedList.addLast(url);
        }
    }
    
    /**
     * 添加访问超时的url
     * 
     * @param url
     */
    public void enQueueUrlTimeOut(String url) {
        if (url != null) {
            visitedSet.remove(url);
            unvisitedList.addLast(url);
        }
    }

    /**
     * 添加url
     * 
     * @param urls
     */
    public void enQueue(Collection<String> urls) {
        for (String url : urls) {
            enQueue(url);
        }
    }

    /**
     * 取出url
     * 
     * @return
     */
    public String deQueue() {
        try {
            String url = unvisitedList.removeFirst();
            while(visitedSet.contains(url)) {
                url = unvisitedList.removeFirst();
            }
            visitedSet.add(url);
            return url;
        } catch (NoSuchElementException e) {
            System.err.println("URL取光了");
        }
        return null;
    }

    /**
     * 得到已经请求过的url的数目
     * 
     * @return
     */
    
    
    public int getVisitedCount() {
        return visitedSet.size();
    }
}


package com.hjzgg.spider;

import java.util.Set;

import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

public class Main {
    static UrlQueue urlQueue = new UrlQueue(new String[] { "http://192.168.1.201:8080/HZML/" });
    public static void main(String[] args) {
        JsoupDownloader downloader = JsoupDownloader.getInstance();
        long start = System.currentTimeMillis();
        while (urlQueue.getVisitedCount() < 1000) {
            String url = urlQueue.deQueue();
            if (url == null) {
                break;
            }
            Document doc = downloader.downloadPage(url);
            if (doc == null) {
                continue;
            }
            Set<String> urlSet = downloader.parsePage(doc, "userRequest\\?userRequest=showNoParticipateTask&taskid=\\d{1,2}|http://www.cnblogs.com/hujunzheng/(p|default|archive/\\d{4}/\\d{2}/\\d{2}/).*");
            urlQueue.enQueue(urlSet);
            downloader.savePage(doc, "I:\\博客园-hjzgg", null, "userRequest\\?userRequest=showNoParticipateTask&taskid=\\d{1,2}|http://www.cnblogs.com/hujunzheng/(p|default|archive/\\d{4}/\\d{2}/\\d{2}/).*");
            System.out.println("已请求" + urlQueue.getVisitedCount() + "个页面");
        }
        long end = System.currentTimeMillis();
        System.out.println(">>>>>>>>>>抓取完成,共抓取" + urlQueue.getVisitedCount() + "到个页面,用时" + ((end - start) / 1000) + "s<<<<<<<<<<<<");
    }
}

注:userRequest\\?userRequest=showNoParticipateTask&taskid=\\d{1,2} 是本地的网站中网页里的地址,当然种子地址也是本地网站!

在请求这个地址后会产生地址重定向,到博客园地址http://www.cnblogs.com/hujunzheng/,并完成相应的下载!

1.这是请求超时的情况

2.正常访问或者重定向访问

 

目录
相关文章
|
数据采集 存储 缓存
如何设计一个网络爬虫?
网络爬虫也被称为机器人或蜘蛛,它被搜索引擎用于发现网络上的新内容或更新内容。内容可以是网页、图片、视频、PDF文件等。网络爬虫开始时会收集一些网页,然后跟随这些网页上的链接收集新的内容
|
7月前
|
数据采集 存储 前端开发
Python爬虫实战:动态网页数据抓取与分析
本文将介绍如何利用Python编写爬虫程序,实现对动态网页的数据抓取与分析。通过分析目标网站的结构和请求方式,我们可以利用Selenium等工具模拟浏览器行为,成功获取到需要的数据并进行进一步处理与展示。
|
6月前
|
数据采集 缓存 安全
一:《智慧的网络爬虫》— 认识爬虫
网络爬虫又称为网络蜘蛛;网络蚂蚁;网络机器人等,可以自动高效地从互联网的海量信息中浏览获取到我们感兴趣的信息,在浏览信息的时候需要按照我们制定的规则进行,而这些规则就是网络爬虫算法。使用Python可以很方便地编写出爬虫程序,进行互联网信息的自动化检索,也就是代替人去模拟浏览器进行网页操作​。在本篇文章中需掌握http与https协议,以及如何去抓包
65 2
一:《智慧的网络爬虫》—  认识爬虫
|
5月前
|
数据采集 存储 JSON
解密网络爬虫与数据抓取技术的奇妙世界
【7月更文挑战第2天】网络爬虫是自动化数据抓取的关键工具,用于解锁互联网数据的潜力。本文深入探讨了爬虫基础,包括模拟HTTP请求、HTML解析和数据存储。通过实例展示如何用Python构建简单爬虫,强调法律与伦理考虑,如遵循robots.txt、尊重版权和隐私,以及应对反爬策略。合法、负责任的爬虫技术在商业、科研等领域发挥着重要作用,要求我们在数据探索中保持透明、最小影响和隐私保护。
60 1
|
7月前
|
存储 网络安全 API
数据抓取实战(一)
本文介绍了在网络通信理解和控制中常用的两款工具——FiddlerCore和TitaniumProxy。
102 1
|
数据采集 Web App开发 前端开发
网络爬虫(二)——网络爬虫进阶
本文主要讲述了如何使用xpath和Selenium来提高爬虫技术
149 0
|
数据采集 数据库 Python
Python爬虫:滤网架构处理爬虫数据
Python爬虫:滤网架构处理爬虫数据
201 0
Python爬虫:滤网架构处理爬虫数据
|
数据采集 Web App开发 存储
Python爬虫:常用的爬虫工具汇总
Python爬虫:常用的爬虫工具汇总
1483 0
Python爬虫:常用的爬虫工具汇总
|
数据采集 搜索推荐 安全
什么是网络爬虫?
网络爬虫是一种在 Internet 上运行自动化任务的软件应用程序。与人类互联网活动相比,网络爬虫运行的任务通常很简单,并且执行速度要快得多。
227 0
什么是网络爬虫?
|
数据采集 JavaScript 前端开发
Python爬虫:爬虫基本原理
Python爬虫:爬虫基本原理
168 0