DataWorks百问百答28：MongoDB时间戳类型字段如何实现增量同步？-阿里云开发者社区

DataWorks百问百答28：MongoDB时间戳类型字段如何实现增量同步？

2020-06-03 2377

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

大数据开发治理平台DataWorks，Serverless资源组抵扣包300CU*H

简介： 结合赋值节点通过MongoDB时间戳类型字段实现增量同步场景示例

背景：数据集成无法同步MongoDB时间戳字段类型实现增量同步。
场景：定时获取10分钟的增量数据，MongoDB增量字段为时间戳格式数据。

设置任务依赖实现参数传递：

设置节点依赖关系，调度配置都设置10分钟调度

1、使用两个赋值节点定义时间戳格式的时间

开始时间：
参数：day=$[yyyy-mm-dd] start_time=$[hh24:mi:ss- 1/24/60*10]
赋值语言选ODPS SQL：select UNIX_TIMESTAMP("${day} ${end_time}");
结束时间：
参数：day=$[yyyy-mm-dd] end_time=$[hh24:mi:ss]
赋值语言选ODPS SQL：select UNIX_TIMESTAMP("${day} ${end_time}");

2、配置MongoDB同步节点

添加本节点输入参数 start_time和end_time，取值自上游的两个赋值节点

MongoDB原始数据：

脚本模式配置示例代码，源端create_time是double类型，存的时间戳。

"query": "{'create_time':{'$gte':${start_time},'$lt':${end_time}}}",

脚本配置示例

{
    "type": "job",
    "steps": [
        {
            "stepType": "mongodb",
            "parameter": {
                "datasource": "ds1",
                                "query": "{'create_time':{'$gte':${start_time},'$lt':${end_time}}}",
                "column": [
                    {
                        "name": "doc_id",
                        "type": "STRING"
                    },
                    {
                        "name": "create_time",
                        "type": "DOUBLE"
                    },
                    {
                        "name": "date_time",
                        "type": "DATE"
                    }
                ],
                "collectionName": "test1"
            },
            "name": "Reader",
            "category": "reader"
        },
        {
            "stepType": "odps",
            "parameter": {
                "partition": "",
                "truncate": false,
                "compress": false,
                "datasource": "odps_first",
                "column": [
                    "doc_id",
                    "create_time",
                    "date_time"
                ],
                "emptyAsNull": false,
                "table": "tablename"
            },
            "name": "Writer",
            "category": "writer"
        }
    ],
    "version": "2.0",
    "order": {
        "hops": [
            {
                "from": "Reader",
                "to": "Writer"
            }
        ]
    },
    "setting": {
        "errorLimit": {
            "record": ""
        },
        "speed": {
            "throttle": false,
            "concurrent": 2
        }
    }
}

DataWorks百问百答历史记录 请点击这里查看>>

更多DataWorks技术和产品信息，欢迎加入【DataWorks钉钉交流群】

相关实践学习

基于MaxCompute的热门话题分析

本实验围绕社交用户发布的文章做了详尽的分析，通过分析能得到用户群体年龄分布，性别分布，地理位置分布，以及热门话题的热度。

一站式大数据开发治理平台DataWorks初级课程

DataWorks 从 2009 年开始，十ー年里一直支持阿里巴巴集团内部数据中台的建设，2019 年双 11 稳定支撑每日千万级的任务调度。每天阿里巴巴内部有数万名数据和算法工程师正在使用DataWorks，承了阿里巴巴 99%的据业务构建。本课程主要介绍了阿里巴巴大数据技术发展历程与 DataWorks 几大模块的基本能力。课程目标  通过讲师的详细讲解与实际演示，学员可以一边学习一边进行实际操作，可以深入了解DataWorks各大模块的使用方式和具体功能，让学员对DataWorks数据集成、开发、分析、运维、安全、治理等方面有深刻的了解，加深对阿里云大数据产品体系的理解与认识。适合人群  企业数据仓库开发人员  大数据平台开发人员  数据分析师  大数据运维人员  对于大数据平台、数据中台产品感兴趣的开发者

DataWorks百问百答28：MongoDB时间戳类型字段如何实现增量同步？

设置任务依赖实现参数传递：

1、使用两个赋值节点定义时间戳格式的时间

2、配置MongoDB同步节点

MongoDB原始数据：

脚本配置示例

大数据开发治理DataWorks

热门文章

最新文章

相关产品

相关课程

相关电子书

相关实验场景

推荐镜像