开源框架WebCollector抓取图片初试

简介: 开源框架WebCollector抓取图片初试

官网地址:https://github.com/CrawlScript/WebCollector 。这是java版本,如果想要体验Python版本的话请移步 https://github.com/CrawlScript/WebCollector-Python

其它介绍文章

废话不多说,直接进入正题。首先用maven引入相关依赖,目前最新的是2.73-alpha版本

<dependency>
    <groupId>cn.edu.hfut.dmic.webcollector</groupId>
    <artifactId>WebCollector</artifactId>
    <version>2.73-alpha</version>
</dependency>

具体如何使用请看下面示例代码,用来抓取网站的图片,具体哪个网站不太方便给出来,大家自行尝试。

import cn.edu.hfut.dmic.webcollector.model.CrawlDatums;
import cn.edu.hfut.dmic.webcollector.model.Page;
import cn.edu.hfut.dmic.webcollector.plugin.berkeley.BreadthCrawler;
import cn.edu.hfut.dmic.webcollector.util.ExceptionUtils;
import cn.edu.hfut.dmic.webcollector.util.FileUtils;
import cn.edu.hfut.dmic.webcollector.util.MD5Utils;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

import java.io.File;

/**
 * 继承 BreadthCrawler(广度爬虫)
 * BreadthCrawler 是 WebCollector 最常用的爬取器之一
 *
 * @author hu
 */
public class DemoCrawler extends BreadthCrawler {
   
    File baseDir = new File("images");

    /**
     * 构造一个基于伯克利DB的爬虫
     * 伯克利DB文件夹为crawlPath,crawlPath中维护了历史URL等信息
     * 不同任务不要使用相同的crawlPath
     * 两个使用相同crawlPath的爬虫并行爬取会产生错误
     *
     * @param crawlPath 伯克利DB使用的文件夹
     */
    public DemoCrawler(String crawlPath) {
   
        //设置是否自动解析网页内容
        super(crawlPath, true);

        //只有在autoParse和autoDetectImg都为true的情况下
        //爬虫才会自动解析图片链接
        //getConf().setAutoDetectImg(true);

        //如果使用默认的Requester,需要像下面这样设置一下网页大小上限
        //否则可能会获得一个不完整的页面
        //下面这行将页面大小上限设置为10M
        //getConf().setMaxReceiveSize(1024 * 1024 * 10);

        //添加种子URL
        addSeed("http://www.xxx.com");
        //限定爬取范围
        addRegex("http://image.xxx.com/.*");
        addRegex("-.*#.*");
        addRegex("-.*\\?.*");
        //设置线程数
        setThreads(10);
    }

    @Override
    public void visit(Page page, CrawlDatums next) {
   
        //根据http头中的Content-Type信息来判断当前资源是网页还是图片
        String contentType = page.contentType();
        if (contentType == null) {
   
            return;
        } else if (contentType.contains("html")) {
   
            //如果是网页,则抽取其中包含图片的URL,放入后续任务
            Elements imgs = page.select("img[src]");
            for (Element img : imgs) {
   
                String imgSrc = img.attr("abs:src");
                if (imgSrc.indexOf("thumb") < 0) {
   
                    next.add(imgSrc);
                }
            }
        } else if (contentType.startsWith("image")) {
   
            //如果是图片,直接下载
            String extensionName = contentType.split("/")[1];
            try {
   
                byte[] image = page.content();
                //限制文件大小 10k
                if (image.length < 10240) {
   
                    return;
                }
                //根据图片MD5生成文件名
                String fileName = String.format("%s.%s", MD5Utils.md5(image), extensionName);
                File imageFile = new File(baseDir, fileName);
                FileUtils.write(imageFile, image);
                System.out.println("保存图片 " + page.url() + " 到 " + imageFile.getAbsolutePath());
            } catch (Exception e) {
   
                ExceptionUtils.fail(e);
            }
        }
    }

    // 主要解决下载图片出现403的问题
    // 自定义的请求插件
    // 可以自定义User-Agent和Cookie
    public static class MyRequester extends OkHttpRequester {
   
        String userAgent = "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36";

        // 每次发送请求前都会执行这个方法来构建请求
        @Override
        public Request.Builder createRequestBuilder(CrawlDatum crawlDatum) {
   
            // 这里使用的是OkHttp中的Request.Builder
            // 可以参考OkHttp的文档来修改请求头
            return super.createRequestBuilder(crawlDatum)
                   .removeHeader("User-Agent")  //移除默认的UserAgent
                   .addHeader("Referer", "http://www.xxx.com")
                   .addHeader("User-Agent", userAgent);
        }
    }

    public static void main(String[] args) throws Exception {
   
        //crawl为日志目录
        DemoCrawler demoImageCrawler = new DemoCrawler("crawl");
        demoImageCrawler.setRequester(new MyRequester());
        //设置为断点爬取,否则每次开启爬虫都会重新爬取
        demoImageCrawler.setResumable(true);
        //爬取深度
        demoImageCrawler.start(5);
    }
}

示例代码参考了以下来源,稍微优化了一下
http://datahref.com/archives/132

相关文章
|
存储 Web App开发 SQL
「2021」高频前端面试题汇总之浏览器原理篇(中)
近期整理了一下高频的前端面试题,分享给大家一起来学习。如有问题,欢迎指正!
476 0
|
3月前
|
vr&ar
简单易懂的 全景图高清下载方法以及原理简要解析(支持下载建E、720yun、酷雷曼、景站、酷家乐、百度街景原图)
这篇文章介绍了一种简单易懂的全景图高清下载方法,使用在线网站全景管家,支持下载包括建E、720yun、酷雷曼等多个平台的全景图原图,并简要解析了全景图的原理和制作方法。
简单易懂的 全景图高清下载方法以及原理简要解析(支持下载建E、720yun、酷雷曼、景站、酷家乐、百度街景原图)
|
5月前
|
数据采集 存储 数据挖掘
Python网络爬虫实战:抓取并分析网页数据
使用Python的`requests`和`BeautifulSoup`,本文演示了一个简单的网络爬虫,抓取天气网站数据并进行分析。步骤包括发送HTTP请求获取HTML,解析HTML提取温度和湿度信息,以及计算平均温度。注意事项涉及遵守robots.txt、控制请求频率及处理动态内容。此基础爬虫展示了数据自动收集和初步分析的基础流程。【6月更文挑战第14天】
398 9
|
6月前
|
前端开发 定位技术
前端知识笔记(十七)———地图多点标注功能
前端知识笔记(十七)———地图多点标注功能
147 1
|
11月前
|
存储 JSON 搜索推荐
【测试平台系列】第一章 手撸压力机(十二)-初步实现提取功能
上一章节,我们主要实现了基础的并发测试场景的能力。本章节,我们实现一下,如何对响应进行提取,使用正则/json对响应信息提取,并赋值给我们定义的变量。
|
数据采集 前端开发 Python
Python爬虫与逆向工程技术的结合,实现新闻网站动态内容的多线程抓取
Python爬虫与逆向工程技术的结合,实现新闻网站动态内容的多线程抓取
|
存储 JavaScript 算法
「2021」高频前端面试题汇总之浏览器原理篇(下)
近期整理了一下高频的前端面试题,分享给大家一起来学习。如有问题,欢迎指正!
155 0
|
存储 消息中间件 Web App开发
「2021」高频前端面试题汇总之浏览器原理篇(上)
近期整理了一下高频的前端面试题,分享给大家一起来学习。如有问题,欢迎指正!
235 0
|
存储 JSON JavaScript
一款好用的Markdown编辑器及使用过程中的坑
一款好用的Markdown编辑器及使用过程中的坑
515 0
一款好用的Markdown编辑器及使用过程中的坑
|
前端开发
#私藏项目实操分享# 【React工作记录六】如何实现一个图片的伪预览效果
#私藏项目实操分享# 【React工作记录六】如何实现一个图片的伪预览效果
93 0