Java爬虫：使用WebMagic构建最简单的爬虫项目

2022-09-04 383

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Java爬虫：使用WebMagic构建最简单的爬虫项目

资料

WebMagic的架构设计参照了Scrapy

项目主页：http://webmagic.io/

github地址：https://github.com/code4craft/webmagic

项目文档：http://webmagic.io/docs/zh/

环境配置

使用 IntelliJ IDEA 新建maven项目

1、依赖文件配置

WebMagicSpider/pom.xml

<dependencies>
  <dependency>
        <groupId>us.codecraft</groupId>
        <artifactId>webmagic-core</artifactId>
        <version>0.7.3</version>
    </dependency>
    <dependency>
        <groupId>us.codecraft</groupId>
        <artifactId>webmagic-extension</artifactId>
        <version>0.7.3</version>
    </dependency>
    <dependency>
        <groupId>us.codecraft</groupId>
        <artifactId>webmagic-extension</artifactId>
        <version>0.7.3</version>
        <exclusions>
            <exclusion>
                <groupId>org.slf4j</groupId>
                <artifactId>slf4j-log4j12</artifactId>
            </exclusion>
        </exclusions>
    </dependency>
</dependencies>

2、日志文件配置

WebMagicSpider/src/main/resources/log4j.properties

log4j.rootLogger=WARN, stdout
log4j.appender.stdout=org.apache.log4j.ConsoleAppender
log4j.appender.stdout.layout=org.apache.log4j.PatternLayout
log4j.appender.stdout.layout.ConversionPattern=%d %p [%c] - %m%n

项目构建

1、爬虫程序编写

WebMagicSpider/src/main/java/BaiduPageProcessor.java

import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.Spider;
import us.codecraft.webmagic.pipeline.ConsolePipeline;
import us.codecraft.webmagic.pipeline.JsonFilePipeline;
import us.codecraft.webmagic.processor.PageProcessor;
public class BaiduPageProcessor implements PageProcessor {
    private Site site = Site.me()
            .setRetryTimes(1)
            .setSleepTime(1000)
            .setCharset("utf-8");
    public void process(Page page) {
        page.putField("title", page.getHtml().css("title", "text").toString());
    }
    public Site getSite() {
        return site;
    }
    public static void main(String[] args) {
        Spider.create(new BaiduPageProcessor())
                .addUrl("http://www.baidu.com/")
                .addPipeline(new ConsolePipeline())
                .addPipeline(new JsonFilePipeline("/Users/qmp/myproject/WebMagicSpider"))
                .thread(1)
                .run();
    }
}

2、执行程序

控制台输出

get page: http://www.baidu.com/
title:  百度一下，你就知道

文件输出

{"title":"百度一下，你就知道"}

Java爬虫：使用WebMagic构建最简单的爬虫项目

资料

环境配置

项目构建

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

Java爬虫：使用WebMagic构建最简单的爬虫项目

资料

环境配置

项目构建

热门文章

最新文章

相关课程

相关电子书