开发者社区> 问答> 正文

jsoup爬虫获取网页信息? 400 报错

jsoup爬虫获取网页信息? 400 报错

@Leon温陵 你好,想跟你请教个问题:对你分享的虎嗅网抓取代码,狠是受益匪浅,但是我想问你 :“根据虎嗅网文章url的特点,构造请求URI ”,这个如果是新浪新闻,url不固定怎么解决。(也就是怎么样点击进去大的网址,能获取到大网址下边的列表链接信息呢?)

展开
收起
爱吃鱼的程序员 2020-06-05 12:35:05 1614 0
1 条回答
写回答
取消 提交回答
  • https://developer.aliyun.com/profile/5yerqm5bn5yqg?spm=a2c6h.12873639.0.0.6eae304abcjaIB

    Document doc = Jsoup.parse(content);
    Elements tds = doc.select("a");.........................
    ######谢谢,我要是的 怎么解决我想获取的网页的urI,######1楼回答你了。 Elements tds  这个里面应该就包含url信息######爬虫原理 你知道吧 主要有个种子服务!首页爬到的url丢到 url列队 抓取列表 像抓取咨询类的网站 其实是有模版算法的!

    2020-06-05 12:35:20
    赞同 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
Python第五讲——关于爬虫如何做js逆向的思路 立即下载
基于浏览器的实时构建探索之路 立即下载
低代码开发师(初级)实战教程 立即下载