文档备案控制台

开发者社区问答正文

如果定时每天执行一次爬虫程序，怎么知道当前新增的数据呢？

如果定时每天执行一次爬虫程序，怎么知道当前新增的数据呢？

展开

收起

OSC开源社区 2024-05-28 13:54:27 192 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

2 条回答

写回答

取消提交回答

OSC小助手
1. 数据抓取后，下一步的处理都是数据入库或将数据存储在文件上，而数据的下一步如何使用，这个就属于爬虫的另一个范畴，比如用于数据分析，建模、人工智能的训练数据等等，数据的使用方式不同，从而导致数据结构有所不同，这个需要根据实际需求而定。
2. 关于爬虫的新增数据。这个要分析网站的新增规则，不管新增规则如何，判断数据新增都是根据数据的唯一性进行判断，大多数的网大多数的网站的数据都是有ID属性，具有唯一性，可以通过判断数据的ID进行判断数据是否新增。而新增方式是各种各样，这个需要结合网站设计进行分析。大多数新增方式都是将新增数据排在第一页，当遍历数据时，首先判断数据ID是否已入库，若已入库可中断遍历，否则入库处理。
2024-05-28 15:02:37

赞同 1 展开评论
听风de歌

你可以定时SQL任务执行后，您可以在定时SQL任务的执行实例区域查看执行情况。这里会显示任务执行时间、处理的数据量等信息，帮助您了解每次执行处理了多少新数据。

2024-05-28 14:18:28

赞同 1 展开评论

问答分类：

数据采集

问答标签：

爬虫数据爬虫程序定时爬虫爬虫程序数据

问答地址：

开发者社区 > 大数据 > 问答

相关问答

Flink CDC我使用爬虫一次插入数据到ods层，数量为250条，这种情况是否遇到过？

317

1

0

我是用爬虫获取数据全量存储到ods层，使用的按最新的同步吗？

207

1

0

DataWorks这里的数据对我分析独享集成资源很有价值，怎么把这个数据弄下来？不会让我写爬虫脚本吧

233

1

0

爬虫如何只爬取更新数据

280

1

0

用python写爬虫，有什么好的建议？数据量大了有什么好的处理方式？

191

1

0

如何写爬虫程序爬取内容经常变化的网站的内容？

203

1

0

在阿里云RPA我用编码的方式写，用来爬虫，最后怎么把爬取的数据返出去？

325

2

0

dataworks有相关的接口功能吗？需求是将爬虫得到的数据直接导入到dataworks中的表？

272

1

0

爬虫保存数据的方式以及框架是怎样的呢？

505

1

0

爬虫去重有哪些解决方案以及python scrapy爬取超时怎么处理？

233

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

【精品问答】python技术1000问(1)

阿里云服务器多少钱一年？价格贵不贵？有优惠吗？

总是提示您已达到配额使用上限，请升级订阅计划，以获得更多使用资源。问题反馈。但已经购买了资源

新人遇到两个问题，关于使用和白嫖

Qoder的搜索/索引进程rg.exe占满CPU

秒悟Meoo官网登录入口在哪？

相关文章

为什么爬虫并发拉到几百，吞吐反而掉了？记一次高并发爬虫性能瓶颈排查与实战

RFID 固定资产管理系统：优化盘点流程的有效方案

什么是API选品比价？一篇带你从零到一

基于录音转写与大模型的家装客户概览生成实践

2026企业如何应用数据中台：落地实战指南

相关解决方案

更多

基于数据闪回，快速恢复数据

海量异构数据预处理破局之道

分析 Agent 实现一键 AI 数据洞察

多模态数据信息提取

高效存储和处理多媒体数据

还有其他疑问?