开发者社区> 问答> 正文

java爬虫的基本架构是什么?

一个好的spider一般都包含哪几个模块?分别有什么作用?

展开
收起
YDYK 2020-04-05 14:48:32 693 0
1 条回答
写回答
取消 提交回答
  • 通常包含四个模块: 1)保存种子URL和待抓取的URL的数据结构。 2)保存已经抓取的URL数据结构,防止重复抓取。 3)页面抓取模块。 4)对已经抓去的页面内容的各个部分进行抽取的模块。

    2020-04-05 14:51:18
    赞同 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
Spring Cloud Alibaba - 重新定义 Java Cloud-Native 立即下载
The Reactive Cloud Native Arch 立即下载
JAVA开发手册1.5.0 立即下载