Java爬虫之多线程下载IMDB中Top250电影的图片

简介: 介绍  在博客:Java爬虫之下载IMDB中Top250电影的图片中我们实现了利用Java爬虫来下载图片,但是效率不算太高。

介绍

  在博客:Java爬虫之下载IMDB中Top250电影的图片中我们实现了利用Java爬虫来下载图片,但是效率不算太高。本次分享将在此基础上,利用多线程,提高程序运行的效率。

思路

  本次分享建立在博客Java爬虫之下载IMDB中Top250电影的图片上,总体的爬虫思路没有变化,只是在此基础上引入多线程。多线程的思路如下:

  • Java的每个任务类必须实现Runnable接口,因此,我们将新建ImageDownload类来实现Runnable接口。ImageDownload类的构造函数的参数有: url:网站的网址, dir: 图片储存目录。并在run()方法中实现将网页中的图片下载到本地。
  • 在主函数中,调用ImageDownload类,利用多线程实现爬虫下载,提高运行效率。

程序

  ImageDownload类的代码完整如下:

package wikiScrape;

import java.io.File;
import java.io.IOException;
import java.net.MalformedURLException;
import java.net.URL;
import java.net.URLConnection;

import org.apache.commons.io.FileUtils;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.select.Elements;

/* ImageDownload类实现Runnable接口
 * ImageDownload类的构造参数: url:网址的网址, dir: 图片存储目录
 * ImageDownload类实现了将网页中的图片下载到本地
 */

public class ImageDownload implements Runnable{
    private String url;
    private String dir;

    public ImageDownload(String url, String dir) {
        this.url = url;
        this.dir = dir;
    }

    // run()函数: 将网页中的电影图片下载到本地
    @Override
    public void run(){

        // 利用URL解析网址
        URL urlObj = null;
        try{
            urlObj = new URL(url);

        }
        catch(MalformedURLException e){
            System.out.println("The url was malformed!");
        }

        // URL连接
        URLConnection urlCon = null;
        try{
            // 打开URL连接
            urlCon = urlObj.openConnection(); 
            // 将HTML内容解析成UTF-8格式
            Document doc = Jsoup.parse(urlCon.getInputStream(), "utf-8", url);
            // 提取电影图片所在的HTML代码块
            Elements elems = doc.getElementsByClass("ss-3 clear");
            Elements pic_block = elems.first().getElementsByTag("a");

            for(int i=0; i<pic_block.size(); i++) {
                // 提取电影图片的url, name
                String picture_url = pic_block.get(i).getElementsByTag("img").attr("src");
                String picture_name = pic_block.get(i).getElementsByClass("bb").text()+".jpg";
                // 用download()函数将电影图片下载到本地
                download(picture_url, dir, picture_name);
                System.out.println("第"+(i+1)+"张图片下载完毕!");
            }

        }
        catch(IOException e){
            System.out.println("There was an error connecting to the URL");
        }

    }

    // download()函数利用图片的url将图片下载到本地
    public static void download(String url, String dir, String filename) {  
        try { 

            /* httpurl: 图片的url
             * dirfile: 图片的储存目录
             */
            URL httpurl = new URL(url);  
            File dirfile = new File(dir); 

            // 如果图片储存的目录不存在,则新建该目录
            if (!dirfile.exists()) {    
                dirfile.mkdirs();  
            }  

            // 利用FileUtils.copyURLToFile()实现图片下载
            FileUtils.copyURLToFile(httpurl, new File(dir+filename));  
        } 
        catch(Exception e) {  
            e.printStackTrace();  
        } 
    }

}

  主函数ImageScraper.java的代码如下:

package wikiScrape;

/* 本爬虫利用多线程爬取http://www.imdb.cn/IMDB250/中Top250的图片
 * 先利用Jsoup解析得到该网页中的图片的url
 * 然后利用FileUtils.copyURLToFile()函数将图片下载到本地
 */

import wikiScrape.ImageDownload;

import java.util.ArrayList;
import java.util.concurrent.*;
import java.util.Date;

public class ImageScraper {

    public static void main(String[] args) {
        Date d1 = new Date();

        System.out.println("爬虫开始......");

        // 爬取的网址列表,一共十个网页
        ArrayList<String> urls = new ArrayList<String>();
        urls.add("http://www.imdb.cn/IMDB250/");
        for(int i=2; i<=10; i++) {
            urls.add("http://www.imdb.cn/imdb250/"+ Integer.toString(i));
        }

        String dir = "E://log/";  // 图片储存目录

        // 利用多线程下载每个页面中的图片
        ExecutorService executor = Executors.newCachedThreadPool();

        // Create and launch 100 threads
        for(int i=0; i<10; i++) {
            executor.execute(new ImageDownload(urls.get(i), dir));
        }

        executor.shutdown();

        // wait until all tasks are finished
        while(!executor.isTerminated()) {
        }

        System.out.println("程序运行完毕!");
        Date d2 = new Date();

        // 计算程序的运行时间,并输出
        long seconds = (d2.getTime()-d1.getTime())/1000;
        System.out.println("一共用时: "+seconds+"秒.");

    }

}

运行

  运行上述主函数,结果如下:


程序运行结果

  一共也是下载了244张图片,运行结果与博客: Java爬虫之下载IMDB中Top250电影的图片中的结果一模一样,但是时间却少了一半!可见利用多线程来写爬虫效率相当高!
  本次分享到此结束,欢迎大家交流~~

目录
相关文章
|
14天前
|
数据可视化 Java
Java语言使用DL4J实现图片分类
【6月更文挑战第14天】Java语言使用DL4J实现图片分类
28 3
|
4天前
|
Java
用java 将 jb2 文件转图片的方法
用java 将 jb2 文件转图片的方法
10 1
|
21天前
|
Java 机器人 API
JAVA实现自动打开URL对应的网页并保存为图片-不借助第三方API
JAVA实现自动打开URL对应的网页并保存为图片-不借助第三方API
24 9
|
23天前
|
数据采集 JSON API
自动化Reddit图片收集:Python爬虫技巧
自动化Reddit图片收集:Python爬虫技巧
|
18小时前
|
数据采集 存储 编解码
技术笔记:Node.jsmm131图片批量下载爬虫1.01增加断点续传功能
技术笔记:Node.jsmm131图片批量下载爬虫1.01增加断点续传功能
|
20小时前
|
数据采集 Web App开发 XML
详尽分享用Node.js写爬虫,撸羞羞的图片
详尽分享用Node.js写爬虫,撸羞羞的图片
|
29天前
|
文字识别 Java API
Java图片信息识别
【5月更文挑战第26天】Java图片信息识别
26 1
|
24天前
|
数据采集 存储 NoSQL
Java爬虫-爬取疫苗批次信息
为了解决疫苗批号查询难题,作者因个人情况需查询脊髓灰质炎灭活疫苗信息,发现官网查询系统不便使用。于是,技术大展身手,编写了一个Java爬虫,利用Hutool、Jsoup和Spring Boot的MongoDB库,抓取并存储了中国食品药品检定研究院等多家机构近十年的疫苗批次信息。代码示例展示了如何爬取数据并存入MongoDB,方便按需查询。
46 0
|
1月前
|
JSON 前端开发 Java
基于Java爬取微博数据(五) 补充微博正文列表图片 or 视频 内容
【5月更文挑战第15天】基于Java爬取微博数据(五) 补充微博正文列表图片 or 视频 内容

热门文章

最新文章