开发者社区> 问答> 正文

如果定时每天执行一次爬虫程序,怎么知道当前新增的数据呢?

如果定时每天执行一次爬虫程序,怎么知道当前新增的数据呢?

展开
收起
OSC开源社区 2024-05-28 13:54:27 29 0
2 条回答
写回答
取消 提交回答
    1. 数据抓取后,下一步的处理都是数据入库或将数据存储在文件上,而数据的下一步如何使用,这个就属于爬虫的另一个范畴,比如用于数据分析,建模、人工智能的训练数据等等,数据的使用方式不同,从而导致数据结构有所不同,这个需要根据实际需求而定。
    2. 关于爬虫的新增数据。这个要分析网站的新增规则,不管新增规则如何,判断数据新增都是根据数据的唯一性进行判断,大多数的网大多数的网站的数据都是有ID属性,具有唯一性,可以通过判断数据的ID进行判断数据是否新增。而新增方式是各种各样,这个需要结合网站设计进行分析。大多数新增方式都是将新增数据排在第一页,当遍历数据时,首先判断数据ID是否已入库,若已入库可中断遍历,否则入库处理。
    2024-05-28 15:02:37
    赞同 1 展开评论 打赏
  • 你可以定时SQL任务执行后,您可以在定时SQL任务的执行实例区域查看执行情况。这里会显示任务执行时间、处理的数据量等信息,帮助您了解每次执行处理了多少新数据。
    image.png

    2024-05-28 14:18:28
    赞同 1 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
Python第五讲——关于爬虫如何做js逆向的思路 立即下载
低代码开发师(初级)实战教程 立即下载
阿里巴巴DevOps 最佳实践手册 立即下载