jsoup (网页获取与解析)-阿里云开发者社区

开发者社区> 开发与运维> 正文

jsoup (网页获取与解析)

简介: 1.获取 <dependency> <groupId>org.jsoup</groupId> <artifactId>jsoup</artifactId> <version>1.6.3</version> </dependency> 2.常用类 org.jsoup.nodes.D

1.获取

<dependency>
	<groupId>org.jsoup</groupId>		<artifactId>jsoup</artifactId>
	<version>1.6.3</version>
</dependency>

2.常用类

org.jsoup.nodes.Document

一个Html文档。类的定义为:public class Document extends Element{}


Connection org.jsoup.Jsoup.connect(String url)
指定URL,为下一步拿到HTML网页做准备。

Document org.jsoup.Connection.get() throws IOException
发送get请求,得到Document。

两个示例
Document doc = Jsoup.connect("http://example.com").userAgent("Mozilla").data("name", "jsoup").get(); 
Document doc = Jsoup.connect("http://example.com").cookie("auth", "token").post(); 

String org.jsoup.nodes.Element.text()
获取此元素 与 它所有子元素的文本内容的组合。如给定的html为<p>Hello <b>there</b> now!</p>, p.text() ,那么返回的是"Hello there now!"

Document org.jsoup.Jsoup.parse(String html)
将Html内容解析为一个文档。

Document org.jsoup.Jsoup.parse(File in, String charsetName, String baseUri) 

从本地html文件中解析网页,得到document。

Elements org.jsoup.nodes.Element.select(String cssQuery)
寻找与指定css选择器匹配的元素。

Element org.jsoup.select.Elements.get(int index)

从elements中拿element,下标从0起。

Element org.jsoup.nodes.Element.child(int index)

返回该节点的第i个孩子,下标从0起。

3.Jsoup与浏览器

需要注意的是,我们平时上网用的浏览器,除了根据用户输入的url完成通信,还要解析执行javascript代码。
浏览器在发送http请求时,会在头部里面加入很多信息,比如Cookie、userAgent等。所以网站可以根据这些信息来确定这个请求是正常的用户请求还是爬虫机器请求,对于后者,为了减轻网站压力服务器通常不予回应,所以该系统在使用jsoup工具时会附上猎豹浏览器的真实userAgent,降低失败率。
浏览器在拿到网页以后,会执行java script代码,有一些代码会再次让浏览器发送请求,拿到一些内容来展现在网页上。因为jsoup不能执行java script代码,所以会出现它拿到的内容少于真实内容的情形。

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

分享:
开发与运维
使用钉钉扫一扫加入圈子
+ 订阅

集结各类场景实战经验,助你开发运维畅行无忧

其他文章