开发者社区 > 大数据与机器学习 > 实时计算 Flink > 正文

checkpoint是存在job里面的?还是说只是管理checkpoint的启动呢?

checkpoint是存在job里面的?还是说只是管理checkpoint的启动呢?

展开
收起
solitude. 2023-03-07 13:04:11 505 0
2 条回答
写回答
取消 提交回答
  • checkpoint 那个协调器 是在job 这边,素有算子 都会 向job 汇报快照情况。此回答整理自钉钉群”【③群】Apache Flink China社区“

    2023-03-07 14:06:21
    赞同 展开评论 打赏
  • 随心分享,欢迎友善交流讨论:)

    Checkpoint通常是在深度学习模型训练期间使用的一种技术,可以在训练过程中定期保存模型参数,以便在需要时恢复训练,或者用于在不同的计算机或环境中运行模型。在实现中,Checkpoint可以以两种不同的方式管理:

    1、通过job来管理checkpoint: 在分布式训练中,可以使用job来启动训练任务,并在其中配置Checkpoint。在这种情况下,Checkpoint会将模型参数保存到分布式文件系统中,以便所有节点都可以访问。

    2、通过框架本身管理checkpoint: 大多数深度学习框架都提供了内置的Checkpoint管理工具,例如TensorFlow中的tf.train.Checkpoint和PyTorch中的torch.save()函数。这些工具使得在训练期间创建和管理Checkpoint变得更加容易。在这种情况下,Checkpoint的保存位置通常由用户指定,可以是本地文件系统或分布式文件系统。

    无论哪种方式,Checkpoint都是在训练期间自动保存模型参数的一种技术,以便在需要时恢复模型状态。

    2023-03-07 13:10:22
    赞同 展开评论 打赏

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务,基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎,提高作业开发运维效率。

相关电子书

更多
低代码开发师(初级)实战教程 立即下载
冬季实战营第三期:MySQL数据库进阶实战 立即下载
阿里巴巴DevOps 最佳实践手册 立即下载