开发者社区 问答 正文

如果定时每天执行一次爬虫程序,怎么知道当前新增的数据呢?

如果定时每天执行一次爬虫程序,怎么知道当前新增的数据呢?

展开
收起
OSC开源社区 2024-05-28 13:54:27 40 发布于河南 分享
分享
版权
举报
2 条回答
写回答
取消 提交回答
    1. 数据抓取后,下一步的处理都是数据入库或将数据存储在文件上,而数据的下一步如何使用,这个就属于爬虫的另一个范畴,比如用于数据分析,建模、人工智能的训练数据等等,数据的使用方式不同,从而导致数据结构有所不同,这个需要根据实际需求而定。
    2. 关于爬虫的新增数据。这个要分析网站的新增规则,不管新增规则如何,判断数据新增都是根据数据的唯一性进行判断,大多数的网大多数的网站的数据都是有ID属性,具有唯一性,可以通过判断数据的ID进行判断数据是否新增。而新增方式是各种各样,这个需要结合网站设计进行分析。大多数新增方式都是将新增数据排在第一页,当遍历数据时,首先判断数据ID是否已入库,若已入库可中断遍历,否则入库处理。
    2024-05-28 15:02:37 举报
    赞同 1 评论

    评论

    全部评论 (0)

    登录后可评论
  • 你可以定时SQL任务执行后,您可以在定时SQL任务的执行实例区域查看执行情况。这里会显示任务执行时间、处理的数据量等信息,帮助您了解每次执行处理了多少新数据。
    image.png

    2024-05-28 14:18:28 举报
    赞同 1 评论

    评论

    全部评论 (0)

    登录后可评论