开发者社区大数据与机器学习大数据计算 MaxCompute 正文

DataWorks中 maxcompute数据夸机房迁移到新的平台有什么高效的方案？

展开

收起

真的很搞笑 2023-09-11 16:44:25 74 版权

阿里云 AI 助理回答

在DataWorks中实现MaxCompute数据跨机房迁移到新的平台，可以通过以下高效方案完成。此方案结合了跨项目克隆、数据同步和补数据等操作，确保迁移过程的平滑性和准确性。

1. 创建目标项目

首先需要为目标平台创建一个新的MaxCompute项目，用于存放迁移后的数据、表结构和配置。

登录DataWorks控制台。
在目标地域下，创建工作空间并绑定MaxCompute计算资源。
- 工作空间模式选择“标准模式”。
- 目标项目名称示例：clone_test_doc。

2. 跨项目克隆

通过DataWorks的跨项目克隆功能，将原始项目的表结构、资源和配置快速复制到目标项目中。

在原始项目（如WorkShop2023）右上角单击“跨项目克隆”，跳转至克隆页面。
选择克隆目标工作空间为新创建的目标项目（如clone_test_doc），并勾选所有需要迁移的节点。
单击“添加到待克隆”后，点击右侧的“待克隆列表”。
单击“全部克隆”，将选中的节点克隆至目标项目。
切换至新建的项目，检查节点是否已完成克隆。

注意：跨项目克隆功能无法复制原始项目的数据，仅能复制表结构、资源和配置。因此，后续需要手动同步数据。

3. 新建数据表

由于跨项目克隆无法迁移表结构，您需要在目标项目中手动创建表结构。

对于非分区表，使用如下SQL语句迁移表结构：

CREATE TABLE table_name AS SELECT * FROM 源库MaxCompute项目.表名;

对于分区表，使用如下SQL语句迁移表结构：

CREATE TABLE table_name PARTITIONED BY (分区列 STRING);

4. 数据同步

通过DataWorks的数据集成功能，将原始项目中的数据同步到目标项目。

4.1 新建数据源

在数据集成页面，单击左侧导航栏上的“数据源”。
在数据源管理页面，单击右上角“新增数据源”，选择“MaxCompute”。
填写数据源名称、MaxCompute项目名称、AccessKey ID、AccessKey Secret等信息，单击“完成”。

4.2 创建数据同步任务

在数据开发页面，右键单击目标业务流程下的“数据集成”，选择“新建 > 离线同步”。
编辑新建的数据同步任务节点：
- 数据来源：原始项目（如WorkShop2023）。
- 数据去向：目标项目（如clone_test_doc）。
- 表名：需要同步数据的表（如ods_user_info_d）。
完成配置后，单击“调度配置”。
单击“使用工作空间根节点”后，提交数据同步任务。

4.3 补数据

单击左上角图标，选择“全部产品 > 运维中心”。
在左侧导航栏中，单击“周期任务运维 > 周期任务”。
右键单击数据同步任务，选择“补数据 > 当前节点”。
设置需要补数据的日期分区（如2019年6月11日至17日），单击“确定”。
在“周期任务运维 > 补数据实例”页面，查看补数据实例任务运行状态，显示“运行成功”则说明完成数据同步。

5. 验证结果

在目标项目中验证数据是否成功迁移。

在“业务流程 > 数据开发”中新建“ODPS SQL”类型节点。

执行如下SQL语句查看数据是否完成同步：

SELECT * FROM ods_user_info_d WHERE dt BETWEEN '20190611' AND '20190617';

查看运行结果，确认数据已成功迁移。

6. 注意事项

地域限制：跨地域迁移仅支持华东1（杭州）、华东2（上海）、华北2（北京）、华北3（张家口）、华南1（深圳）和西南1（成都）地域。
网络连通性：确保源和目标项目之间的网络连通性，建议使用独享数据集成资源组进行测试。
数据一致性：在迁移过程中，建议暂停对源数据的写入操作，以避免数据不一致问题。

通过以上步骤，您可以高效地将MaxCompute数据从一个机房迁移到新的平台，同时保证数据的完整性和一致性。

有帮助

无帮助

AI 助理回答生成答案可能存在不准确，仅供参考

0 条回答

写回答

取消提交回答

问答分类：

分布式计算 DataWorks MaxCompute 大数据开发治理平台 DataWorks 云原生大数据计算服务 MaxCompute

问答标签：

云原生大数据计算服务 MaxCompute数据云原生大数据计算服务 MaxCompute平台大数据开发治理平台 DataWorks平台大数据开发治理平台 DataWorks数据云原生大数据计算服务 MaxCompute方案

问答地址：

开发者社区 > 大数据与机器学习 > 大数据计算 MaxCompute > 问答

大数据计算 MaxCompute

MaxCompute（原ODPS）是一项面向分析的大数据计算服务，它以Serverless架构提供快速、全托管的在线数据仓库服务，消除传统数据平台在资源扩展性和弹性方面的限制，最小化用户运维投入，使您经济并高效的分析处理海量数据。

我要提问

别等被黑客敲门才醒悟：大数据如何帮你防住网络攻击？

【万字长文，建议收藏】《高性能ODPS SQL章法》——用古人智慧驾驭大数据战场

买房不是拍脑袋：大数据教你优化房地产投资策略

基于模糊RBF神经网络轨迹跟踪研究（Matlab代码实现）

【升级版本】基于多目标粒子群算法的微电网优化调度【风光、储能、柴油、燃气、电网交互】（Matlab代码实现）