开发者社区> 问答> 正文

运行Emapreduce后的结果想导出RDS,怎么整?

我在EMR上运行一个 按需创建 的hive集群进行计算,每天定时启动一次,计算完成时间不定,hive运算结果存储在输入目录下的一个随机id文件夹里面(如指定hive集群日志在oss 的存储目录为 /tmp, 则会在tmp下随机生成一个数字文件名,并存储相关的运行结果),请问 数据集成 在这个时候怎么样去配置 把 oss里面的结果同步到 RDS

展开
收起
封神 2016-05-12 23:03:19 2293 0
1 条回答
写回答
取消 提交回答
  • 专注在大数据分布式计算、数据库及存储领域,拥有13+年大数据引擎、数据仓库、宽表引擎、平台研发经验,6年云智能大数据产品技术一号位经验,10年技术团队管理经验;云智能技术架构/云布道师; 研发阿里历代的大数据技术产品包括ODPS、DLA、ADB,最近五年主导宽表引擎研发、DLA、ADB湖仓研发;

    这里主要的问题是Emr的hive作业运行完成后,不能通知CDP去运行同步job。

    目前可以全部在E-mapreduce的控制平台完成的。

    1、第一个job,运行hive
    2、第二个job,运行sqoop把数据从hdfs上同步到rds中(可以参考https://yq.aliyun.com/articles/25897?spm=0.0.0.0.6mMzHM

    再新建一个执行计划,把这两个job串联起来。

    ps:目前没有加sqoop的作业类型,后续我们会添加的。
    目前可以:
    选择hadoop作业,作业参数设置为:
    ;sqoop xxx 也可以跑sqoop,本质就是一个shell

    2019-07-17 19:01:31
    赞同 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
TcpRT:阿里云RDS智能诊断系统云上大规模部署自动化服务的客户实践经验 立即下载
TcpRT:面向大规模海量云数据库的服务质量实时采集与诊断系 立即下载
袋鼠云基于阿里云RDS的数据库架构实践 立即下载

相关镜像