jsoup (网页获取与解析)

本文涉及的产品
云解析 DNS,旗舰版 1个月
全局流量管理 GTM,标准版 1个月
公共DNS(含HTTPDNS解析),每月1000万次HTTP解析
简介: 1.获取 <dependency> <groupId>org.jsoup</groupId> <artifactId>jsoup</artifactId> <version>1.6.3</version></dependency> 2.常用类 org.jsoup.nodes.D

1.获取

<dependency>
	<groupId>org.jsoup</groupId>		<artifactId>jsoup</artifactId>
	<version>1.6.3</version>
</dependency>

2.常用类

org.jsoup.nodes.Document

一个Html文档。类的定义为:public class Document extends Element{}


Connection org.jsoup.Jsoup. connect(String url)
指定URL,为下一步拿到HTML网页做准备。

Document org.jsoup.Connection.get() throws IOException
发送get请求,得到Document。

两个示例
Document doc = Jsoup.connect("http://example.com").userAgent("Mozilla").data("name", "jsoup").get(); 
Document doc = Jsoup.connect("http://example.com").cookie("auth", "token").post(); 

String org.jsoup.nodes.Element.text()
获取此元素 与 它所有子元素的文本内容的组合。如给定的html为<p>Hello <b>there</b> now!</p>, p.text() ,那么返回的是"Hello there now!"

Document org.jsoup.Jsoup. parse(String html)
将Html内容解析为一个文档。

Document org.jsoup.Jsoup.parse(File in, String charsetName, String baseUri) 

从本地html文件中解析网页,得到document。

Elements org.jsoup.nodes.Element.select(String cssQuery)
寻找与指定css选择器匹配的元素。

Element org.jsoup.select.Elements.get(int index)

从elements中拿element,下标从0起。

Element org.jsoup.nodes.Element.child(int index)

返回该节点的第i个孩子,下标从0起。

3.Jsoup与浏览器

需要注意的是,我们平时上网用的浏览器,除了根据用户输入的url完成通信,还要解析执行javascript代码。
浏览器在发送http请求时,会在头部里面加入很多信息,比如Cookie、userAgent等。所以网站可以根据这些信息来确定这个请求是正常的用户请求还是爬虫机器请求,对于后者,为了减轻网站压力服务器通常不予回应,所以该系统在使用jsoup工具时会附上猎豹浏览器的真实userAgent,降低失败率。
浏览器在拿到网页以后,会执行java script代码,有一些代码会再次让浏览器发送请求,拿到一些内容来展现在网页上。因为jsoup不能执行java script代码,所以会出现它拿到的内容少于真实内容的情形。

目录
打赏
0
0
0
0
14
分享
相关文章
网页内容解析技巧:Typhoeus 与 Nokogiri 的结合使用
网页内容解析技巧:Typhoeus 与 Nokogiri 的结合使用
深度解析:利用Universal Links与Android App Links实现无缝网页至应用跳转的安全考量
【10月更文挑战第2天】在移动互联网时代,用户经常需要从网页无缝跳转到移动应用中。这种跳转不仅需要提供流畅的用户体验,还要确保安全性。本文将深入探讨如何利用Universal Links(仅限于iOS)和Android App Links技术实现这一目标,并分析其安全性。
651 0
Python 爬虫实战:抓取和解析网页数据
【8月更文挑战第31天】本文将引导你通过Python编写一个简单的网络爬虫,从网页中抓取并解析数据。我们将使用requests库获取网页内容,然后利用BeautifulSoup进行解析。通过本教程,你不仅能够学习到如何自动化地从网站收集信息,还能理解数据处理的基本概念。无论你是编程新手还是希望扩展你的技术工具箱,这篇文章都将为你提供有价值的见解。
PHP 7新特性深度解析与实践深入浅出PHP:构建你的第一个动态网页
【8月更文挑战第27天】本文将深入探讨PHP 7的新特性,包括性能提升、语法改进等,并通过代码示例展示如何在实际项目中应用这些新特性。同时,我们还将讨论如何优化现有项目以充分利用PHP 7的优势。让我们一起探索PHP 7的世界,提升开发效率和项目质量!
从入门到精通:H5游戏源码开发技术全解析与未来趋势洞察
H5游戏凭借其跨平台、易传播和开发成本低的优势,近年来发展迅猛。接下来,让我们深入了解 H5 游戏源码开发的技术教程以及未来的发展趋势。
mindspeed-llm源码解析(一)preprocess_data
mindspeed-llm是昇腾模型套件代码仓,原来叫"modelLink"。这篇文章带大家阅读一下数据处理脚本preprocess_data.py(基于1.0.0分支),数据处理是模型训练的第一步,经常会用到。
63 0

热门文章

最新文章

推荐镜像

更多
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等