开发者社区> 问答> 正文

怎样解决Jsoup翻页问题?

Jsoup官方文档里,重点讲了怎么解析网页,但没很好的讲解怎么download这个问题。
载入一个网页,就这么干巴巴一句:
Document doc = Jsoup.connect("http://example.com/").get();
更别没有提到翻页、判断是否重复爬去等问题。
这个是不是说,用其他的爬虫,比如crawler4j或者HttpClient,先爬取网页,然后再使用Jsoup来解析?
还是说Jsoup能强大到先爬取再解析?
还有,对于这个问题,能否推荐几个英文关键词,我去google上搜一下?

展开
收起
蛮大人123 2016-03-11 11:47:14 2393 0
1 条回答
写回答
取消 提交回答
  • 我说我不帅他们就打我,还说我虚伪

    JSoup帮你发送http请求,获取返回的HTML内容,保存到Document对象中,再提供一套类jQuery的API查询解析HTML文档内的信息
    翻页每个站点有特定的URL请求,或JSON、JSONP请求,这个需要你自己组织处理
    你可以使用HttpClient等爬虫类库,获取HTML原始内容,构建成JSOUP的Document对象,让JSOUP解析出内容,然后保存到你期望的持久化方案中(本地文件,数据库,内存...)
    是否爬虫了,是否需要通过代理去爬(如何反爬)不是JSOUP应该干的活,就像HttpClient负责爬取内容,但不会解析内容一样.

    2019-07-17 18:58:54
    赞同 展开评论 打赏
问答分类:
问答地址:
问答排行榜
最热
最新

相关电子书

更多
低代码开发师(初级)实战教程 立即下载
冬季实战营第三期:MySQL数据库进阶实战 立即下载
阿里巴巴DevOps 最佳实践手册 立即下载