Java 技术篇 - 从指定的web网页页面中读取html内容实例演示,从http协议下的url地址中读取web页面内容方法

简介: Java 技术篇 - 从指定的web网页页面中读取html内容实例演示,从http协议下的url地址中读取web页面内容方法

 

实例为从我文章中读取标题。

image.png

通过 class 属性锁定标题元素,把匹配的内容打印出来。

image.png

下面是源码:

package com.test.test;
import java.io.*;
import java.net.URL;
import java.net.URLConnection;
public class WebHtmlTest {
    public static void main(String[] args) throws IOException {
        /*
         作用:从url中读取web页面的内容
        */
        String html_url = "https://lanzao.blog.csdn.net/article/details/119329989";
        // 连接的超时时间
        System.setProperty("sun.net.client.defaultConnectTimeout", "20000");
        // 读取数据的超时时间
        System.setProperty("sun.net.client.defaultReadTimeout", "20000");
        try {
            URL url = new URL(html_url);
            URLConnection url_connection = url.openConnection();
            InputStream input_stream = url_connection.getInputStream();
            InputStreamReader input_stream_reader = new InputStreamReader(input_stream,"utf-8");
            BufferedReader html_reader = new BufferedReader(input_stream_reader);
            String html_reader_line = null;
            // 读取html内容
            while ((html_reader_line = html_reader.readLine()) != null) {
                if(html_reader_line.contains("class=\"title-article\"")) {
                    System.out.println(html_reader_line);
                }
            }
            // 关闭创建的对象
            html_reader.close();
            input_stream_reader.close();
            input_stream.close();
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}

喜欢的点个赞❤吧!

   

目录
相关文章
|
4月前
|
数据采集 UED
HTTP代理的响应速度对网页采集有何影响?
随着互联网发展,使用代理IP的人数增多,HTTP代理的纯净度成为重要质量指标。它能提高业务价值、增强稳定性与性能、优化带宽利用,并增加代理IP的可用性和存活时间,确保高质量的服务效果。选择代理服务时,纯净度是关键考量因素。
71 6
|
21天前
|
缓存 人工智能 边缘计算
HTTP代理:网页加速的隐形引擎
本文深入探讨HTTP代理在提升网页加载速度中的核心作用与技术原理。通过请求中转、协议优化及传输层加速,结合智能缓存、动态压缩、全球负载均衡和协议升级四大黑科技,实现显著性能提升。同时分析其潜在代价与挑战,并展望边缘计算、AI驱动等未来趋势,为选型提供实用指南。
62 10
|
25天前
|
存储 缓存 搜索推荐
HTTP500代码怎么解决?常见的5xx网页错误及其原因
本文介绍了如何修复HTTP 500错误及常见的5xx网页错误。500错误表示服务器无法处理请求,可能由文件权限、脚本错误、数据库连接或配置问题引起。作为用户,可尝试重新加载页面、检查URL或清除缓存;作为网站所有者,需检查`.htaccess`文件、服务器日志、插件冲突及PHP版本等。此外,文章还列举了其他5xx错误(如502、503、504等)及其原因,帮助定位和解决服务器端问题,避免影响流量与搜索引擎排名。
170 4
|
1月前
|
API Kotlin
动态URL构建与HTTP请求的Kotlin实现
动态URL构建与HTTP请求的Kotlin实现
|
1月前
|
监控 网络安全
网页显示HTTP错误503怎么办?HTTP错误503解决方法
HTTP 503错误表示服务器暂时无法处理请求,通常是由于服务器过载或维护导致。常见解决方法包括:1. 等待一段时间再刷新页面;2. 检查服务器负载;3. 确认服务器是否在维护;4. 检查配置错误;5. 联系服务提供商。通过这些步骤,用户和管理员可以有效排查并解决该问题。
797 3
|
2月前
|
网络协议 Java Shell
java spring 项目若依框架启动失败,启动不了服务提示端口8080占用escription: Web server failed to start. Port 8080 was already in use. Action: Identify and stop the process that’s listening on port 8080 or configure this application to listen on another port-优雅草卓伊凡解决方案
java spring 项目若依框架启动失败,启动不了服务提示端口8080占用escription: Web server failed to start. Port 8080 was already in use. Action: Identify and stop the process that’s listening on port 8080 or configure this application to listen on another port-优雅草卓伊凡解决方案
114 7
|
3月前
|
Kubernetes Java 持续交付
小团队 CI/CD 实践:无需运维,Java Web应用的自动化部署
本文介绍如何使用GitHub Actions和阿里云Kubernetes(ACK)实现Java Web应用的自动化部署。通过CI/CD流程,开发人员无需手动处理复杂的运维任务,从而提高效率并减少错误。文中详细讲解了Docker与Kubernetes的概念,并演示了从创建Kubernetes集群、配置容器镜像服务到设置GitHub仓库Secrets及编写GitHub Actions工作流的具体步骤。最终实现了代码提交后自动构建、推送镜像并部署到Kubernetes集群的功能。整个过程不仅简化了部署流程,还确保了应用在不同环境中的稳定运行。
143 9
|
4月前
|
Java 开发者 微服务
Spring Boot 入门:简化 Java Web 开发的强大工具
Spring Boot 是一个开源的 Java 基础框架,用于创建独立、生产级别的基于Spring框架的应用程序。它旨在简化Spring应用的初始搭建以及开发过程。
142 7
Spring Boot 入门:简化 Java Web 开发的强大工具
|
5月前
|
前端开发 UED 开发者
CSS Sprites和图标字体在网页图标加载优化中的应用。CSS Sprites通过合并多图标减少HTTP请求,提升加载速度
本文探讨了CSS Sprites和图标字体在网页图标加载优化中的应用。CSS Sprites通过合并多图标减少HTTP请求,提升加载速度;图标字体则以字体形式呈现图标,便于调整样式。文章分析了两者的优缺点及应用场景,并提供了应用技巧和注意事项,旨在帮助开发者提升页面性能,改善用户体验。
69 5
|
5月前
|
Java Maven Spring
Java Web 应用中,资源文件的位置和加载方式
在Java Web应用中,资源文件如配置文件、静态文件等通常放置在特定目录下,如WEB-INF或classes。通过类加载器或Servlet上下文路径可实现资源的加载与访问。正确管理资源位置与加载方式对应用的稳定性和可维护性至关重要。
129 7

热门文章

最新文章