JSoup 不只是一个 HTML 的解析器,它自带的 HTTP 客户端包非常好用,而且很简单,至少比 HttpClient 要简单好多。
但是在使用过程中发现在读取一些内容很大的不管文本或者图片时都会被截断。净研究发现默认 JSoup 的限制是 1024*1024,也就是 1M 的大小。
因此我们需要在连接时设置一下 maxBodySize ,具体方法如下:
Document = Jsoup.connect(url)
.header("Accept-Encoding", "gzip, deflate")
.userAgent("Mozilla/5.0 (Windows NT 6.1; WOW64; rv:23.0) Gecko/20100101 Firefox/23.0")
.maxBodySize(0)
.timeout(600000)
.get();
设置为 0 表示不限制大小,不过谨慎使用哦:)
@红薯 最近在写爬虫??
######Jsoup,解决不了,由Js延迟生成的界面。举例:一个界面先加载了部分资源,之后由JS生成内部的div内容。
各位可有好办法?
######有,但是就不告诉你######回复 @两广总督bogang : 好的,我试试######htmlUnit+Jsoup######谢谢。######这个其他库也解决不了######HtmlUnit页面渲染
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。