DataWorks如何备份?

DataWorks如何备份?

展开
收起
真的很搞笑 2023-12-23 17:54:36 78 分享 版权
阿里云 AI 助理回答

DataWorks 提供了多种数据备份与恢复的能力,以确保用户的数据安全性和可靠性。以下是关于 DataWorks 数据备份的具体方法和操作步骤:


1. MaxCompute 数据的备份

MaxCompute 是 DataWorks 的核心计算引擎之一,支持自动备份数据的历史版本,并允许用户自定义备份保留周期。

  • 设置备份保留天数
    用户可以通过以下命令设置 MaxCompute 表数据的备份保留天数:

    setproject odps.timemachine.retention.days=days;
    
    • days 的取值范围为 [0,30],默认值为 1
    • 设置为 0 表示关闭备份功能。
    • 延长备份周期时,新的备份周期于当日生效;缩短备份周期时,系统会自动删除超过保留周期的备份数据。
  • 数据恢复
    在备份保留周期内,用户可以将当前版本恢复至任意一个历史备份版本。此功能通过云原生底层存储实现三份副本备份,确保数据的高可用性。


2. 数据集成自定义资源组的备份

对于使用 DataWorks 数据集成自定义资源组的场景,如果涉及 DataX 组件的 log4j 问题,可以通过以下步骤修复并确保组件的安全性:

  1. 下载最新版 log4j-core 文件(例如 log4j-core-2.17.1.jar)。
  2. 将新版本的 jar 包上传至临时目录(如 /tmp/)。
  3. 进入工具包安装目录(如 /home/admin/datax3/),确认并备份原有的 log4j-core 文件。
  4. 替换旧版本 jar 包为新版本文件。
  5. 检查替换结果,确保修复成功。

3. 任务代码的备份

DataWorks 提供了迁移助手功能,支持用户定期备份任务代码,避免因误删项目导致的损失。

  • 备份方式
    用户可以通过迁移助手导出任务代码,保存至本地或其他存储介质中。
    • 支持全量复制业务代码,便于快速搭建测试环境或进行业务复制。
    • 备份任务代码的操作详情可参考迁移助手章节。

4. 操作记录的备份

DataWorks 集成了操作审计(ActionTrail)功能,支持查看和检索最近 90 天内的操作记录。

  • 支持的操作类型
    包括但不限于:

    • 任务责任人变更操作
    • 任务调度属性变更操作
    • 任务及表提交操作
    • 数据下载操作
  • 数据恢复与回滚

    • 用户可以在数据开发界面找到目标节点,通过版本对比功能回滚至历史版本。
    • 删除的节点可通过数据开发回收站还原,但还原后的节点 ID 会重新生成。

5. CDH 或 CDP 集群的备份

对于注册至 DataWorks 的 CDH 或 CDP 集群,用户需要上传相关配置文件以确保集群任务的正常运行。

  • 配置文件备份
    包括但不限于以下文件:

    • Core-Site 文件(HDFS 和 MapReduce 的 I/O 设置)
    • Hdfs-Site 文件(HDFS 相关配置)
    • Yarn-Site 文件(YARN 守护进程配置)
    • Hive-Site 文件(Hive 参数配置)

    用户可根据实际需求上传这些文件,并在必要时进行备份。


6. 数据保护伞的风险识别与备份

DataWorks 的数据保护伞功能支持对敏感数据进行分类分级管理,并提供风险识别与报警功能。

  • 风险数据备份
    • 旧版风险识别规则及相关数据将在到期后自动清除,建议用户及时导出备份。
    • 新版功能支持精细化风险管理,包括高、中、低风险的聚合度判断,减少误报情况。

重要提醒

  • 权限要求:部分备份功能(如流转管控、自定义角色等)仅在 DataWorks 企业版及以上版本中支持,请确保您的版本满足需求。
  • 数据安全:建议定期检查备份策略,确保数据的完整性和可用性。

通过以上方法,您可以全面保障 DataWorks 中的数据安全与可靠性。

有帮助
无帮助
AI 助理回答生成答案可能存在不准确,仅供参考
0 条回答
写回答
取消 提交回答

DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。

还有其他疑问?
咨询AI助理