开发者社区> 问答> 正文

爬虫如何只爬取更新数据

目前爬虫已经实现了爬虫指定内容的信息,但是又遇到了数据更新的问题。

由于要抓取的信息实时性比较强,所以会不定期的更新,但是爬虫目前是整站定点抓取的,这给更新的数据入库带来了问题,就是如何只将新的数据入库而避免重复数据爬取,不知道大家是如何解决的,谢谢指点!

展开
收起
OSC开源社区 2024-05-31 15:28:30 22 0
1 条回答
写回答
取消 提交回答
  • 给你说一个我们正在用的方案。一般是垂直型爬虫才有增量爬取需求,垂直型爬虫每个数据都有一些联合起来独一无二的属性,把这些属性联合起来提取数据指纹,根据指纹匹配可以判断是否已爬取过。对于属性没有改变,正文改变的数据,采用提取正文tags来判断。

    补充一点,判断数据指纹是否已爬取过,这种从大量数据中查找某个串是否已存在的场景,有一个优秀的算法叫布隆过滤器。

    2024-05-31 16:21:42
    赞同 1 展开评论 打赏
问答分类:
问答地址:
问答排行榜
最热
最新

相关电子书

更多
Python第五讲——关于爬虫如何做js逆向的思路 立即下载
低代码开发师(初级)实战教程 立即下载
阿里巴巴DevOps 最佳实践手册 立即下载