JSoup 爬虫遇到的 404 错误解决方案

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
大数据开发治理平台 DataWorks,不限时长
简介: JSoup 爬虫遇到的 404 错误解决方案

亿牛云 (4).png

在网络爬虫开发中,使用JSoup进行数据抓取是一种常见的方式。然而,当我们尝试使用JSoup来爬虫抓取腾讯新闻网站时,可能会遇到404错误。这种情况可能是由于网站的反面爬虫机制检测到了我们的爬虫行为,从而拒绝了我们的请求。
假设我们希望使用JSoup来爬取腾讯新闻的数据,但在实际操作中,我们却遇到404错误。这可能是因为腾讯新闻网站采取了一些反爬虫措施,例如检测请求头中的用户- Agent信息或者Referer信息,以识别爬虫行为并拒绝请求并返回404错误信息。如下所示:

```import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import java.io.IOException;

public class TencentNewsCrawler {
public static void main(String[] args) {
String url = "http://news.qq.com/not_existing_page"; // 不存在的页面

    try {
        Document document = Jsoup.connect(url).get();
        System.out.println(document.outerHtml());
    } catch (IOException e) {
        System.out.println("Error fetching the page: " + e.getMessage());
        if (e.getMessage().contains("404")) {
            System.out.println("Encountered 404 error - Page not found");
        }
    }
}

}


为了解决这个问题,我们可以采取以下几种方法:
1. 设置合适的请求头:请求头中包含了关于客户端环境和请求的信息,通过设置合适的请求头,我们可以让服务器认为请求来自标准浏览器,从而避免被拒绝或返回404错误。
2. 模拟浏览器的请求:通过设置合适的User-Agent来模拟浏览器的请求,让服务器认为请求来自标准浏览器,从而避免被拒绝或返回404错误。
3. 设置Referer信息:有些网站会要求客户端提供特定的Referer信息,即来源页面的URL。通过设置请求头中的Referer字段来模拟请求来源页面的URL,有助于避免被服务器或拒绝返回404错误。
4. 使用代理服务器:通过使用代理服务器,我们可以隐藏爬虫的真实IP地址,从而降低被网站识别为爬虫的概率。JSoup提供了设置代理的方法,不知道如何设置的可以参考这里https://www.16yun.cn/help/ss_demo/#4java
通过以上方法,我们可以有效地解决 JSoup 爬虫遇到的 404 错误问题,确保爬虫能够正常地获取所需的数据,完整的实现代码示例如下:
```import org.jsoup.Connection;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;

import java.io.IOException;

public class JsoupCrawlerWithProxy {
    public static void main(String[] args) {
        String url = "https://example.com"; // 替换为目标网站的URL
        String proxyHost = "www.16yun.cn";
        String proxyPort = "5445";
        String proxyUser = "16QMSOML";
        String proxyPass = "280651";

        try {
            // 设置合适的User-Agent和Referer,并使用代理服务器
            Connection connection = Jsoup.connect(url)
                    .userAgent("Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3")
                    .referrer("https://www.google.com")
                    .proxy(proxyHost, Integer.parseInt(proxyPort))
                    .header("Proxy-Authorization", "Basic " + encodeProxyCredentials(proxyUser, proxyPass));

            // 发起请求
            Document document = connection.get();

            // 处理返回的HTML文档
            System.out.println(document.title());
            // 其他处理逻辑...

        } catch (IOException e) {
            e.printStackTrace();
        }
    }

    // 编码代理服务器的用户名和密码
    private static String encodeProxyCredentials(String username, String password) {
        String credentials = username + ":" + password;
        return java.util.Base64.getEncoder().encodeToString(credentials.getBytes());
    }
}
相关文章
|
8月前
|
数据采集 JSON JavaScript
jsoup爬虫发送get、post请求、解析html、获取json
jsoup爬虫发送get、post请求、解析html、获取json
329 0
|
10月前
|
数据采集 Web App开发 存储
Java爬虫第五篇:使用selenium、Jsoup 抓取bing搜索图片
Java爬虫第五篇:使用selenium、Jsoup 抓取bing搜索图片
211 0
|
10月前
|
数据采集 Web App开发 存储
Java爬虫第四篇:使用selenium、Jsoup 抓取图片
Java爬虫第四篇:使用selenium、Jsoup 抓取图片
255 0
|
10月前
|
数据采集 Java Maven
Java爬虫第三篇:使用Jsoup 抓取文章
Java爬虫第三篇:使用Jsoup 抓取文章
108 0
|
数据采集 JavaScript 前端开发
java爬虫利器Jsoup的使用
java爬虫利器Jsoup的使用
|
数据采集 Java
Java爬虫:Jsoup解析HTML
Java爬虫:Jsoup解析HTML
116 0
|
数据采集 Android开发 JavaScript
Jsoup,(安卓)强大的爬虫解析工具!
介绍 Jsoup是一个用来处理html文本的java库。它提供了非常方便的API,可以通过dom,css或者类似jquery的方法来提取和操作数据。 嗯,所以他到底是干嘛的呢? 当我们访问一个网站拿到它的html代码的时候,往往我们所需要的一些数据就已经包含在html里,Jsoup就是帮我们把这些我们想要的数据提取出来。
1553 0
|
数据采集 搜索推荐 Java
Java爬虫之利用Jsoup自制简单的搜索引擎
  Jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。
2057 0
|
24天前
|
数据采集 Python
爬虫实战-Python爬取百度当天热搜内容
爬虫实战-Python爬取百度当天热搜内容
63 0
|
30天前
|
数据采集 存储 XML
深入浅出:基于Python的网络数据爬虫开发指南
【2月更文挑战第23天】 在数字时代,数据已成为新的石油。企业和个人都寻求通过各种手段获取互联网上的宝贵信息。本文将深入探讨网络爬虫的构建与优化,一种自动化工具,用于从网页上抓取并提取大量数据。我们将重点介绍Python语言中的相关库和技术,以及如何高效、合法地收集网络数据。文章不仅为初学者提供入门指导,也为有经验的开发者提供进阶技巧,确保读者能够在遵守网络伦理和法规的前提下,充分利用网络数据资源。