在回答标题的问题之前,我们先来看下 Cron 的实现。
Cron 是 *nix
系统中常见的有一个 daemon,用于定时执行任务。cron 的实现非常简单,以最常用的 vixie cron 为例,大概分为三步:
- 每分钟读取 crontab 配置
- 计算需要执行的任务
- 执行任务,主进程执行或者开启一个 worker 进程执行
Cron 的实现每次都是重新加载 crontab,哪怕计算出来下次可执行时间是 30 分钟之后,也不会说 sleep(30),这样做是为了能够在每次 crontab 变更的时候及时更新。
我们可以查看 vixie cron 的源码确认一下:
/* first-time loading of tasks */ load_database(&database); /* run tasks set to be carried out after the system rebooted */ run_reboot_jobs(&database); /* make TargetTime the start of the next minute */ cron_sync(); while (true) { /* carry out tasks, then go to sleep until the TargetTime adjusted to take into account the time spent on the tasks */ cron_sleep(); // 在这里调用了 do_command,也就是实际执行任务 /* reread configuration */ load_database(&database); /* collect tasks for given minute */ cron_tick(&database); /* reset TargetTime to the start of the next minute */ TargetTime += 60; }
do_command 函数在 fork 之后子进程中实际执行需要执行的任务,实际上在 worker 中还会进行一次 fork,以便 setuid 变成 session leader,这里就不再赘述了:
switch (fork()) { case -1: /*could not execute fork */ break; case 0: /* child process: just in case let’s try to acquire the main lock again */ acquire_daemonlock(1); /* move on to deriving the job process */ child_process(e, u); /* once it has completed, the child process shuts down */ _exit(OK_EXIT); break; default: /* parent process continues working */ break; }
cron 是没有运行记录的,并且每次都会重新加载 crontab,所以总体来说 cron 是一个无状态的服务。
在大多数情况下,这种简单的机制是非常高效且稳健的,但是考虑到一些复杂的场景也会有一些问题,包括本文标题中的问题:
- 如果某个任务在下次触发的时候,上次运行还没有结束怎么办?
这个问题其实也就是也就是并发的任务是多少。如果定义并发为 1,也就是同一个任务只能执行一个实例,那么当任务运行时间超过间隔的时候,可能会造成延迟,但是好处是不会超过系统负载。如果定义并发为 n,那么可能会有多个实例同时运行,也有可能会超过系统负载。总之,这个行为是未定义的,完全看 cron 的实现是怎么来的。 - 当系统关机的时候有任务需要触发,开机后 cron 还会补充执行么?
比如说,有个任务是「每天凌晨 3 点清理系统垃圾」,如果三点的时候恰好停电了,那么当系统重启之后还会执行这个任务吗?遗憾的是,因为 cron 是不记录任务执行的记录的,所以这个功能更不可实现了。要实现这个功能就需要记录上次任务执行时间,要有 job id,也就是要有执行日志。 - 如果错过了好多次执行,那么补充执行的时候需要执行多少次呢?
这个问题是上一个问题的一个衍生。还是举清理垃圾的例子,比如说系统停机五天,那么开机后实际上不用触发五次,只需要清理一次就可以了。
Unix 上传统的 cron daemon 没有考虑以上三个问题,也就是说错过就错过了,不会再执行。为了解决这个问题,又一个辅助工具被开发出来了——anacron, ana 是 anachronistic(时间错误) 的缩写。anacron 通过文件的时间戳来追踪任务的上次运行时间。具体的细节就不展开了,可以参考文章后面的参考文献。
总之,如果只有 cron,那么不会执行错过的任务,但是配合上 anacron,还是有机会执行错过的任务的。
定时执行任务是一个普遍存在的需求,除了在系统层面以外,多种不同的软件中都实现了,我们可以认为他们是广义的 cron。这些广义的 cron 大多考虑了这些问题,下面以 apscheduler 和 kubernetes 为例说明一下。