开发者社区> 旭东的博客> 正文

Java 网络爬虫获取网页源代码原理及实现

简介:   1.网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。
+关注继续查看

  1.网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。

  2.那么程序获取网页的原理到底是怎么回事呢?看下面的图:客服端首先向服务器端发出Http请求,之后服务器端返回相应的结果或者请求超时客户端自己报错。

  服务器端发出的Http请求,实际上说是对服务器的文件的请求。下面的表格是一些常见的HTTP请求对应的文件。(因为第一列给出的都是主机的网址信息,主机一般都通过配置文件将该请求转换为网站主页地址index.php或index.jsp或者index.html等

HTTP请求 HTTP对应的文件
 http://www.baidu.com  http://www.baidu.com/index.php
 http://www.sina.com.cn  http://www.sina.com.cn/index.html
 http://www.cnblogs.com  http://www.cnblogs.com/index.html
 http://ac.jobdu.com  http://ac.jobdu.com/index.php

   3.java实现网页源码获取的步骤:

  (1)新建URL对象,表示要访问的网址。如:url=new URL("http://www.sina.com.cn");

  (2)建立HTTP连接,返回连接对象urlConnection对象。如:urlConnection = (HttpURLConnection)url.openConnection();

  (3)获取相应HTTP 状态码。如responsecode=urlConnection.getResponseCode();

  (4)如果HTTP 状态码为200,表示成功。从urlConnection对象获取输入流对象来获取请求的网页源代码。

  4.java获取网页源码代码:

import java.io.BufferedReader;
import java.io.InputStreamReader;
import java.net.HttpURLConnection;
import java.net.URL;
public class WebPageSource {
    public static void main(String args[]){    
        URL url;
        int responsecode;
        HttpURLConnection urlConnection;
        BufferedReader reader;
        String line;
        try{
            //生成一个URL对象,要获取源代码的网页地址为:http://www.sina.com.cn
            url=new URL("http://www.sina.com.cn");
            //打开URL
            urlConnection = (HttpURLConnection)url.openConnection();
            //获取服务器响应代码
            responsecode=urlConnection.getResponseCode();
            if(responsecode==200){
                //得到输入流,即获得了网页的内容 
                reader=new BufferedReader(new InputStreamReader(urlConnection.getInputStream(),"GBK"));
                while((line=reader.readLine())!=null){
                    System.out.println(line);
                }
            }
            else{
                System.out.println("获取不到网页的源码,服务器响应代码为:"+responsecode);
            }
        }
        catch(Exception e){
            System.out.println("获取不到网页的源码,出现异常:"+e);
        }
    }
}

 

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
ES 7.x 基于MyBatis-Plus的Java客户端(Java TransportClient & HighLevelClient)的常见操作代码封装(含源代码)
ES 7.x 基于MyBatis-Plus的Java客户端(Java TransportClient & HighLevelClient)的常见操作代码封装(含源代码)
69 0
【号外】-一款高效的Java源代码解析器
【号外】-一款高效的Java源代码解析器QDox
797 0
九十九、学生成绩管理系统进阶版 Java实现(附源代码及数据库)
九十九、学生成绩管理系统进阶版 Java实现(附源代码及数据库)
100 0
四、学生评教管理系统java版(对学生的增删改查,对课程的增删查,老师的添加,教师对课程的排课,查询教师与课程号的对应信息,学生登录并授课评价),并且对其进行了优化,在主方法中全部可以实现(附源代码)
四、学生评教管理系统java版(对学生的增删改查,对课程的增删查,老师的添加,教师对课程的排课,查询教师与课程号的对应信息,学生登录并授课评价),并且对其进行了优化,在主方法中全部可以实现(附源代码)
180 0
Eclipse如何跳转到Java系统类的源代码
Eclipse如何跳转到Java系统类的源代码
98 0
使用JAD集成到Eclipse里去,方便地查看任意Java类的源代码
使用JAD集成到Eclipse里去,方便地查看任意Java类的源代码
62 0
一些Java反编译工具/源代码查看工具的介绍
一些Java反编译工具/源代码查看工具的介绍
203 0
Eclipse如何跳转到Java系统类的源代码
Eclipse如何跳转到Java系统类的源代码
118 0
如何写出更好的Java单例(Singleton)模式,以及单例模式的攻防源代码
如何写出更好的Java单例(Singleton)模式,以及单例模式的攻防源代码
75 0
+关注
旭东的博客
从事互联网开发工作,写博客,记录问题与学习支持,并分析
文章
问答
文章排行榜
最热
最新
相关电子书
更多
Java工程师必读手册
立即下载
Java应用提速(速度与激情)
立即下载
Java单元测试实战
立即下载