手撸了一个java爬虫,发现了c站这么多大佬

本文涉及的产品
云解析 DNS,旗舰版 1个月
公共DNS(含HTTPDNS解析),每月1000万次HTTP解析
全局流量管理 GTM,标准版 1个月
简介: 手撸了一个java爬虫,发现了c站这么多大佬

今天我们使用Java语言写一个爬虫,用来爬取csdn首页推荐博客的博主,看看这些博主有多少人在写微信公众号。

一、爬虫原理

爬虫就是去请求某个url,然后将响应的页面进行解析,将解析到的数据保存,同时解析出当前页面的url,继续进行爬取,一直循环下去,爬取当前网站的内容。

二、分析CSDN页面数据

因为我们的目标很明确,就是去分析首页推荐博客博主写微信公众号的比例,因此我们只需要找到我们需要的数据进行保存即可,不需要爬取网站的全部数据。

2.1 找到CSDN首页的博客链接

  • 在浏览器输入csdn首页链接https://www.csdn.net/
  • 找到我们爬取的目标,如下图所示

  • 使用f12查看目标元素

根据目标元素,我们可以提取两个关键元素,其一是目标链接在<a></a>中,其二是博客地址的格式为https://blog.csdn.net/+"用户名"+/article/details/+"文章标识"(记住这个博客地址,后面有用)。

2.2 提取设置了公众号信息的博主

在文章详情页面有博主相关的信息,csdn博客左侧有一块

是博主用来自定义信息的,如下图:

还是一样,f12来查看DOM元素,发现这一块内容在id=asideCustom

中。

2.3 爬取思路

  1. 通过爬取首页,解析出所有a标签
  2. 筛选a标签,根据博客地址格式,匹配到所有的博客地址
  3. 爬取博客地址,解析id=asideCustom
  4. 如果第3步可以解析出来,则说名该博主设置了自定义信息

三、编写爬虫

根据上面的分析我们需要两个工具包,一个是httpclient用于网络请求,另一个是用来解析DOM元素的jsoup

<dependency>
    <groupId>org.apache.httpcomponents</groupId>
    <artifactId>httpclient</artifactId>
    <version>4.5.10</version>
</dependency>

<!-- 添加jsoup支持 -->
<dependency>
    <groupId>org.jsoup</groupId>
    <artifactId>jsoup</artifactId>
    <version>1.10.1</version>
</dependency>

网络调用伪代码

public static ArrayList<Document> HttpUtil(HashSet<String> urls){
    CloseableHttpClient httpClient = HttpClients.createDefault();
    CloseableHttpResponse response = null;
    ArrayList<Document> list = new ArrayList<>();
    try {
        for(String url : urls){
            HttpGet request = new HttpGet(url);
            response = httpClient.execute(request);

            //判断响应状态为200,请求成功,进行处理
            if(response.getStatusLine().getStatusCode() == 200) {
                HttpEntity httpEntity = response.getEntity();
                String html = EntityUtils.toString(httpEntity, "utf-8");
                Document document = Jsoup.parse(html);
                list.add(document);
            } else {
                System.out.println("返回状态不是200");
            }
        }
    } catch (ClientProtocolException e) {
        e.printStackTrace();
    } catch (IOException e) {
        e.printStackTrace();
    } finally {
        HttpClientUtils.closeQuietly(response);
        HttpClientUtils.closeQuietly(httpClient);
    }
    return list;
}

调用及解析伪代码

public static void main(String[] args) {

    // 标记有多少博主设置了自定义信息
    int i = 0;
    // 首页url
    HashSet<String> url = new HashSet<>();
    // 文章urls
    HashSet<String> articleUrls = new HashSet<>();
    url.add("https://www.csdn.net/");
    // 爬取csdn首页
    ArrayList<Document> list = HttpUtil(url);
    // 选择a标签
    for(Document document : list){
        Elements a = document.select("a");
        for(Element element : a){
            // 获取a中的url
            // <a href = "https://xxxx"> </a>
            String href = element.attr("href");
            // 筛选博客地址
            if(href.contains("article/details")){
                articleUrls.add(href);
            }
        }
    }
    ArrayList<Document> list2 = HttpUtil(articleUrls);
    for(Document document : list2){
        Element asideCustom = document.getElementById("asideCustom");
        if(asideCustom != null){
            i++;
        }
    }
    // 输出爬取的文章数量 和 设置了自定义信息的博主数量
    System.out.println("爬取的文章数量="+articleUrls.size()+"\n"+"写公众号的博主数量="+i);
}

控制台输出信息

爬取的文章数量=25
写公众号的博主数量=5

四、结尾

从上面的结果中可以看出,在25篇博客中,就有五个博主在写公众号。但是,这个数据并不能说明csdn的1/5博主就在更新自己的公众号。

  1. csdn首页推荐数据是分页拉去的,爬虫只能爬取到第一页的数据,也就是25条
  2. 有些博主虽然设置了自定义信息,但是并不是公众号
  3. 有些博主虽然没有设置自定义信息,但是在简介或者其他地方留了公众号名称

不过这些都没关系,本文的重点是使用java语言写个爬虫程序,来爬取目标数据。

目录
相关文章
|
10月前
|
数据采集 存储 Java
高德地图爬虫实践:Java多线程并发处理策略
高德地图爬虫实践:Java多线程并发处理策略
|
24天前
|
数据采集 JSON Java
Java爬虫获取微店快递费用item_fee API接口数据实现
本文介绍如何使用Java开发爬虫程序,通过微店API接口获取商品快递费用(item_fee)数据。主要内容包括:微店API接口的使用方法、Java爬虫技术背景、需求分析和技术选型。具体实现步骤为:发送HTTP请求获取数据、解析JSON格式的响应并提取快递费用信息,最后将结果存储到本地文件中。文中还提供了完整的代码示例,并提醒开发者注意授权令牌、接口频率限制及数据合法性等问题。
|
24天前
|
数据采集 存储 Java
Java爬虫获取微店店铺所有商品API接口设计与实现
本文介绍如何使用Java设计并实现一个爬虫程序,以获取微店店铺的所有商品信息。通过HttpClient发送HTTP请求,Jsoup解析HTML页面,提取商品名称、价格、图片链接等数据,并将其存储到本地文件或数据库中。文中详细描述了爬虫的设计思路、代码实现及注意事项,包括反爬虫机制、数据合法性和性能优化。此方法可帮助商家了解竞争对手,为消费者提供更全面的商品比较。
|
5月前
|
数据采集 缓存 Java
Python vs Java:爬虫任务中的效率比较
Python vs Java:爬虫任务中的效率比较
|
19天前
|
数据采集 算法 Java
如何在Java爬虫中设置动态延迟以避免API限制
如何在Java爬虫中设置动态延迟以避免API限制
|
7月前
|
数据采集 存储 Java
Java爬虫图像处理:从获取到解析
Java爬虫图像处理:从获取到解析
|
4月前
|
数据采集 存储 Web App开发
Java爬虫:深入解析商品详情的利器
在数字化时代,信息处理能力成为企业竞争的关键。本文探讨如何利用Java编写高效、准确的商品详情爬虫,涵盖爬虫技术概述、Java爬虫优势、开发步骤、法律法规遵守及数据处理分析等内容,助力电商领域市场趋势把握与决策支持。
|
4月前
|
数据采集 存储 监控
Java爬虫:数据采集的强大工具
在数据驱动的时代,Java爬虫技术凭借其强大的功能和灵活性,成为企业获取市场信息、用户行为及竞争情报的关键工具。本文详细介绍了Java爬虫的工作原理、应用场景、构建方法及其重要性,强调了在合法合规的前提下,如何有效利用Java爬虫技术为企业决策提供支持。
|
6月前
|
数据采集 Java 数据挖掘
Java IO异常处理:在Web爬虫开发中的实践
Java IO异常处理:在Web爬虫开发中的实践
|
6月前
|
数据采集 存储 前端开发
Java爬虫开发:Jsoup库在图片URL提取中的实战应用
Java爬虫开发:Jsoup库在图片URL提取中的实战应用

热门文章

最新文章