jsoup爬虫获取网页信息? 400 报错
@Leon温陵 你好,想跟你请教个问题:对你分享的虎嗅网抓取代码,狠是受益匪浅,但是我想问你 :“根据虎嗅网文章url的特点,构造请求URI ”,这个如果是新浪新闻,url不固定怎么解决。(也就是怎么样点击进去大的网址,能获取到大网址下边的列表链接信息呢?)
Document doc = Jsoup.parse(content);
Elements tds = doc.select("a");.........................
######谢谢,我要是的 怎么解决我想获取的网页的urI,######1楼回答你了。 Elements tds 这个里面应该就包含url信息######爬虫原理 你知道吧 主要有个种子服务!首页爬到的url丢到 url列队 抓取列表 像抓取咨询类的网站 其实是有模版算法的!
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。