JAVA网络爬虫之Jsoup解析

本文涉及的产品
云解析 DNS,旗舰版 1个月
全局流量管理 GTM,标准版 1个月
公共DNS(含HTTPDNS解析),每月1000万次HTTP解析
简介: JAVA网络爬虫之Jsoup解析

最近有个项目任务是爬取汽车之家上面各论坛的回复。但是大家都清楚汽车之家的反爬虫措施做得相当好。也是为了保护个人权益的原因或者是保护用户的信息吧。所以为了完成任务就必须要反反爬虫。这是一个很让人头痛的问题。
所以这里我准备使用jsoup来爬取, jsoup是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。
jsoup的主要功能如下:

  1. 从一个URL,文件或字符串中解析HTML;
  2. 使用DOM或CSS选择器来查找、取出数据;
  3. 可操作HTML元素、属性、文本;
    虽然使用Jsoup可以替代HttpClient直接发起请求解析数据,但是往往不会这样用,因为实际的开发过程中,需要使用到多线程,连接池,代理等等方式,而jsoup对这些的支持并不是很好,所以我们一般把jsoup仅仅作为Html解析工具使用。前面介绍了汽车直接的反爬措施做的相当严,这里我们只是简单的分享学习不做大规模数据爬取,所其他的反爬策略做的不是很足,只是他在访问过程中添加了爬虫代理以防万一。关于代理的选择之前分享了从不同方面比较的数据和推荐这里就不在一一介绍。
    代理在Jsoup真中共的使用过程如下所示,在使用过程中要注意JSoup默认会关闭连接 访问HTTP网站请通过设置相同Proxy-Tunnel来保持相同的外网IP. 访问HTTPS网站请使用其他库,保持相同的外网IP.
    ```import java.io.IOException;
    import java.net.Authenticator;
    import java.net.InetSocketAddress;
    import java.net.PasswordAuthentication;
    import java.net.Proxy;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;

public class Demo
{
// 代理验证信息
final static String ProxyUser = "username";
final static String ProxyPass = "password";

// 代理服务器(产品官网 www.16yun.cn)
final static String ProxyHost = "t.16yun.cn";
final static Integer ProxyPort = 31111;

// 设置IP切换头
final static String ProxyHeadKey = "Proxy-Tunnel";


public static String getUrlProxyContent(String url)
{
    Authenticator.setDefault(new Authenticator() {
        public PasswordAuthentication getPasswordAuthentication()
        {
            return new PasswordAuthentication(ProxyUser, ProxyPass.toCharArray());
        }
    });
    // 设置Proxy-Tunnel
    Random random = new Random();
    int tunnel = random.nextInt(10000);
    String ProxyHeadVal = String.valueOf(tunnel);

    Proxy proxy = new Proxy(Proxy.Type.HTTP, new InetSocketAddress(ProxyHost, ProxyPort));

    try
    {
        // 处理异常、其他参数
        Document doc = Jsoup.connect(url).timeout(3000).header(ProxyHeadKey, ProxyHeadVal).proxy(proxy).get();

        if(doc != null) {
            System.out.println(doc.body().html());
        }
    }
    catch (IOException e)
    {
        e.printStackTrace();
    }

    return null;
}

public static void main(String[] args) throws Exception
{
    // 要访问的目标页面
    String targetUrl = "http://httpbin.org/ip";


    getUrlProxyContent(targetUrl);
}

}

```

相关文章
|
17天前
|
SQL 安全 算法
网络安全与信息安全的全面解析:应对漏洞、加密技术及提升安全意识的策略
本文深入探讨了网络安全和信息安全的重要性,详细分析了常见的网络安全漏洞以及其利用方式,介绍了当前流行的加密技术及其应用,并强调了培养良好安全意识的必要性。通过综合运用这些策略,可以有效提升个人和企业的网络安全防护水平。
|
10天前
|
机器学习/深度学习 数据采集 存储
时间序列预测新突破:深入解析循环神经网络(RNN)在金融数据分析中的应用
【10月更文挑战第7天】时间序列预测是数据科学领域的一个重要课题,特别是在金融行业中。准确的时间序列预测能够帮助投资者做出更明智的决策,比如股票价格预测、汇率变动预测等。近年来,随着深度学习技术的发展,尤其是循环神经网络(Recurrent Neural Networks, RNNs)及其变体如长短期记忆网络(LSTM)和门控循环单元(GRU),在处理时间序列数据方面展现出了巨大的潜力。本文将探讨RNN的基本概念,并通过具体的代码示例展示如何使用这些模型来进行金融数据分析。
68 2
|
11天前
|
数据采集 缓存 Java
Python vs Java:爬虫任务中的效率比较
Python vs Java:爬虫任务中的效率比较
|
14天前
|
SQL 安全 网络安全
网络安全的盾牌与利剑:漏洞防御与加密技术解析
【10月更文挑战第3天】在数字化浪潮中,网络安全成为保障信息资产的关键防线。本文将深入探讨网络安全中的两大核心议题:网络漏洞防御和加密技术。我们将从基础概念出发,逐步分析漏洞产生的原因、影响及防范措施,并详细解读加密技术的工作原理和应用实例。文章旨在通过理论与实践的结合,增强读者的安全意识和技能,为构建更加稳固的网络环境提供实用指南。
26 1
|
19天前
|
存储 SQL 安全
网络安全与信息安全的全方位解析
本文深入探讨了网络安全和信息安全领域的关键要素,包括网络漏洞、加密技术及安全意识。通过分析这些核心内容,旨在为读者提供实用的知识,以增强个人和企业的信息安全防护能力。我们将从技术角度和管理措施两个维度出发,全面解读如何识别和应对网络威胁,以及如何构建一个安全的网络环境。
|
12天前
|
安全 网络安全 API
网络安全的盾牌与剑:漏洞防御与加密技术解析
【10月更文挑战第5天】在数字时代的浪潮中,网络安全成为保护个人隐私与企业资产的关键战场。本文深入浅出地探讨了网络安全中的两大核心要素——安全漏洞与加密技术,旨在提升公众的安全意识,并分享实用的防护知识。通过分析常见的网络攻击手段和防御策略,文章揭示了网络安全的本质,强调了预防胜于治疗的智慧。
30 5
|
9天前
|
数据采集 XML 前端开发
Jsoup在Java中:解析京东网站数据
Jsoup在Java中:解析京东网站数据
|
13天前
|
自动驾驶 物联网 5G
|
16天前
|
域名解析 缓存 网络协议
【网络】DNS,域名解析系统
【网络】DNS,域名解析系统
60 1
|
28天前
|
物联网 5G SDN
5G 网络架构全解析:RAN、核心网和接入网
5G 网络架构全解析:RAN、核心网和接入网
99 8

推荐镜像

更多