DataWorks如何实现调度引擎的导出任务?
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
导出Airflow任务步骤:进入Airflow的执行环境。使用Airflow的Python库,加载在Ariflow上调度的Dag Folder。Dag Folder为您的Dag Python文件所在的目录。使用导出工具,在内存中通过Airflow的Python库读取Dag Python文件的内部任务信息及其依赖关系,将生成的Dag信息写入JSON文件进行导出。 您可以进入DataWorks管理控制台的迁移助手 > 任务上云 > 调度引擎作业导出页面,下载导出工具。进入调度引擎作业导出的步骤请参考进入引擎作业导出导出工具操作说明:使用如下语句解压airflow-exporter.tgz。 tar zxvf airflow-exporter.tgz
设置PYTHONPATH为Airflow的Python lib目录。示例语句如下。 export PYTHONPATH=/usr/local/lib/python3.6/site-packages
导出Aairflow任务。示例语句如下。 cd airflow-exporter2python3.6 ./parser -d /path/to/airflow/dag/floder/ -o output.json进入DataWorks迁移助手页面导入任务。使用如下语句,将导出的output.json文件生成zip包。 zip out.zip output.json进入DataWorks管理控制台的迁移助手 > 任务上云 > 调度引擎作业导入页面,导入上述步骤生产的out.zip压缩包,导入操作详情请参见导入开源引擎任务。
https://help.aliyun.com/document_detail/181296.html,此回答整理自钉群“DataWorks交流群(答疑@机器人)”
DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。