开发者社区> jclian91> 正文

Java爬虫之下载全世界国家的国旗图片

简介: 介绍   本篇博客将继续上一篇博客:Python爬虫之使用Fiddler+Postman+Python的requests模块爬取各国国旗 的内容,将用Java来实现这个爬虫,下载全世界国家的国旗图片。
+关注继续查看

介绍

  本篇博客将继续上一篇博客:Python爬虫之使用Fiddler+Postman+Python的requests模块爬取各国国旗 的内容,将用Java来实现这个爬虫,下载全世界国家的国旗图片。项目不再过多介绍,具体可以参考上一篇博客。
  我们将全世界国家的名称放在一个txt文件中,每一行一个国家名字,该文件位于E盘flag目录下,名称为countries.txt, 部分内容如下:



爬虫程序

  我们这个爬虫的思路还是和上一篇博客的思路一样:先是读取countries.txt中的国家名称,以国家名称为参数,读取该国家搜索后的所在网页,再找到该搜索网页中的国家的国旗图片,并实现下载。这个搜索的过程,我们可以用Java的URL包中的POST方法来实现,关于POST方法的请求头和请求体,可以用Fiddler工具进行抓包分析。
  该Java项目的具体结构如下:


项目结构

其中用到的第三方API为commons-io和Jsoup,主函数为Country_Flag_Download.java,其java代码完整如下:

package wikiScrape;

import java.io.BufferedReader;
import java.io.File;
import java.io.FileReader;
import java.io.IOException;
import java.io.OutputStreamWriter;
import java.net.HttpURLConnection;
import java.net.URL;
import java.net.URLConnection;
import java.util.ArrayList;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;

import org.apache.commons.io.FileUtils;

public class Country_Flag_Download {

    public static void main(String[] args){

        String fileName ="E://flag/countries.txt";
        // 读取countries.txt文件中的国家名,储存在ArrayList中
        ArrayList<String> countries = readFileByLines(fileName);

        for(String country: countries) {
            String page = doPost(country); // 获取国家所在的网页
            if (page.indexOf("html") >= 0) { // 获取成功
                getContent(page);            // 下载该国国家的国旗
            }
        }

        System.out.println("国旗下载完毕!");

    }

    /* 发送HTTP的POST请求,获取指定国家的网页地址
     * 传入参数:country(国家): String类型
     */
    public static String doPost(String country){

        String url = "http://country.911cha.com/";

        try {
            // 设置网址,打开连接
            URL obj = new URL(url);
            HttpURLConnection conn = (HttpURLConnection) obj.openConnection();

            // 设置POST请求头和请求体,请求体的参数为国家(country)
            conn.setUseCaches(false);
            conn.setRequestMethod("POST");
            String USER_AGENT = "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36";
            conn.setRequestProperty("User-Agent", USER_AGENT);
            conn.setRequestProperty("Content-Type", "application/x-www-form-urlencoded; charset=UTF-8");
            String postParams = String.format("q=%s", country);

            // 传入POST请求体的参数
            conn.setDoOutput(true);
            OutputStreamWriter os = new OutputStreamWriter(conn.getOutputStream(),"UTF-8");
            os.write(postParams);
            os.flush();
            os.close();

            // 获取响应结果状态码
            int responseCode = conn.getResponseCode();

            if (responseCode == HttpURLConnection.HTTP_OK) { //如果响应状态码为200

                // 将HTML内容解析成UTF-8格式
                Document doc = Jsoup.parse(conn.getInputStream(), "utf-8", url);
                // 刷选需要的网页内容
                String page = doc.select("div.mcon").get(1)
                                        .selectFirst("ul")
                                        .selectFirst("li")
                                        .selectFirst("a")
                                        .attr("href");
                return page;

            } 
            else { // 如果响应状态码不是200, 则返回"Get page failed!"
                return "Get page failed.!";
            }
        }
        catch(Exception e){
            return "Get page failed.";
        }
    }

    // getContent()函数主要实现下载指定国家的国旗
    public static void getContent(String page){

        String base_url = "http://country.911cha.com/";
        String url = base_url+page;

        try{
            // 利用URL解析网址
            URL urlObj =  new URL(url);
            // URL连接
            URLConnection urlCon = urlObj.openConnection(); // 打开URL连接
            // 将HTML内容解析成UTF-8格式
            Document doc = Jsoup.parse(urlCon.getInputStream(), "utf-8", url);
            // 刷选需要的网页内容
            Element image = doc.selectFirst("img");
            String flag_name = image.attr("alt").replace("国旗", "");
            String flag_url = image.attr("src");

            URL httpurl = new URL(base_url+'/'+flag_url);
            // 利用FileUtils.copyURLToFile()实现图片下载
            FileUtils.copyURLToFile(httpurl, new File("E://flag/"+flag_name+".gif"));

            System.out.println(String.format("%s国旗下载成功~", flag_name));

        }
        catch(Exception e){
            e.printStackTrace();
            System.out.println("下载失败!");

        }

    }

    // 以行读取文件,返回ArrayList, 里面的元素为每个国家的名称
    public static ArrayList<String> readFileByLines(String fileName) {  

        File file = new File(fileName);  
        BufferedReader reader = null;  // 设置reader为null
        ArrayList<String> countries = new ArrayList<String>();

        try {  

            reader = new BufferedReader(new FileReader(file));  
            String tempString = null;  

            // 一次读入一行,直到读入null为文件结束  
            while ((tempString = reader.readLine()) != null)
                countries.add(tempString); // 在列表中添加国家名称

            reader.close(); // 关闭reader

            return countries;
        } 
        catch (IOException e) {  
            return countries;  
        } 
        finally {  
            if (reader != null) {  
                try {  
                    reader.close();  
                }
                catch (IOException e1) {  
                    e1.printStackTrace();
                }  

            }  

        }  

    } 


}

运行结果

  点击运行该Java程序,可以发现在E盘的flag目录下已经下载了全世界国家的国旗图片,查看如下:


国旗图片

  Bingo, 我们的Java爬虫程序运行成功!本次爬虫的主要目标是为了在Java中实现类似于Python中的requests模块的POST方法~

注意:本人现已开通两个微信公众号: 因为Python(微信号为:python_math)以及轻松学会Python爬虫(微信号为:easy_web_scrape), 欢迎大家关注哦~~

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
Python爬虫入门教程 18-100 煎蛋网XXOO图片抓取
1.煎蛋网XXOO-写在前面 很高兴我这系列的文章写道第18篇了,今天写一个爬虫爱好者特别喜欢的网站煎蛋网http://jandan.net/ooxx,这个网站其实还是有点意思的,网站很多人写了N多的教程了,各种方式的都有,当然网站本身在爬虫爱好者的不断进攻下,也在不断的完善,反爬措施也很多,今天我用selenium在揍他一波。
2162 0
阿里云ECS云服务器初始化设置教程方法
阿里云ECS云服务器初始化是指将云服务器系统恢复到最初状态的过程,阿里云的服务器初始化是通过更换系统盘来实现的,是免费的,阿里云百科网分享服务器初始化教程: 服务器初始化教程方法 本文的服务器初始化是指将ECS云服务器系统恢复到最初状态,服务器中的数据也会被清空,所以初始化之前一定要先备份好。
13758 0
Python爬虫入门教程 6-100 蜂鸟网图片爬取之一
1. 蜂鸟网图片简介 国庆假日结束了,新的工作又开始了,今天我们继续爬取一个网站,这个网站为 http://image.fengniao.com/ ,蜂鸟一个摄影大牛聚集的地方,本教程请用来学习,不要用于商业目的,不出意外,蜂鸟是有版权保护的网站。
1474 0
Java爬虫之下载全世界国家的国旗图片
介绍   本篇博客将继续上一篇博客:Python爬虫之使用Fiddler+Postman+Python的requests模块爬取各国国旗 的内容,将用Java来实现这个爬虫,下载全世界国家的国旗图片。
2429 0
阿里云服务器端口号设置
阿里云服务器初级使用者可能面临的问题之一. 使用tomcat或者其他服务器软件设置端口号后,比如 一些不是默认的, mysql的 3306, mssql的1433,有时候打不开网页, 原因是没有在ecs安全组去设置这个端口号. 解决: 点击ecs下网络和安全下的安全组 在弹出的安全组中,如果没有就新建安全组,然后点击配置规则 最后如上图点击添加...或快速创建.   have fun!  将编程看作是一门艺术,而不单单是个技术。
17564 0
python爬虫爬取图片
爬取 http://www.xiaohuar.com/ 美女校花 图片的爬虫 # -*- coding:utf-8 -*- import os import requests # from PIL import Image from lxml import etree class Spider(object): """ crawl image """ def
1256 0
阿里云ECS云服务器初始化设置教程方法
阿里云ECS云服务器初始化是指将云服务器系统恢复到最初状态的过程,阿里云的服务器初始化是通过更换系统盘来实现的,是免费的,阿里云百科网分享服务器初始化教程: 服务器初始化教程方法 本文的服务器初始化是指将ECS云服务器系统恢复到最初状态,服务器中的数据也会被清空,所以初始化之前一定要先备份好。
13663 0
+关注
jclian91
热爱算法,热爱技术,热爱生活,期待更好的自己与明天~
126
文章
0
问答
文章排行榜
最热
最新
相关电子书
更多
OceanBase 入门到实战教程
立即下载
阿里云图数据库GDB,加速开启“图智”未来.ppt
立即下载
实时数仓Hologres技术实战一本通2.0版(下)
立即下载