JSON数据从MongoDB迁移到MaxCompute最佳实践-阿里云开发者社区

JSON数据从MongoDB迁移到MaxCompute最佳实践

2018-11-26 3212

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本文为您介绍如何利用DataWorks数据集成直接从MongoDB提取JSON字段到MaxCompute。

数据及账号准备

首先您需要将数据上传至您的MongoDB数据库。本例中使用阿里云的云数据库 MongoDB 版，网络类型为VPC（需申请公网地址，否则无法与DataWorks默认资源组互通），测试数据如下。


{
    "store": {
        "book": [
             {
                "category": "reference",
                "author": "Nigel Rees",
                "title": "Sayings of the Century",
                "price": 8.95
             },
             {
                "category": "fiction",
                "author": "Evelyn Waugh",
                "title": "Sword of Honour",
                "price": 12.99
             },
             {
                 "category": "fiction",
                 "author": "J. R. R. Tolkien",
                 "title": "The Lord of the Rings",
                 "isbn": "0-395-19395-8",
                 "price": 22.99
             }
          ],
          "bicycle": {
              "color": "red",
              "price": 19.95
          }
    },
    "expensive": 10
}

登录MongoDB的DMS控制台，本例中使用的数据库为 admin，集合为 userlog，您可以在查询窗口使用 db.userlog.find().limit(10)命令查看已上传好的数据，如下图所示。

此外，需提前在数据库内新建用户，用于DataWorks添加数据源。本例中使用命令 db.createUser({user:"bookuser",pwd:"123456",roles:["root"]})，新建用户名为 bookuser，密码为 123456，权限为 root。

使用DataWorks提取数据到MaxCompute

新增MongoDB数据源
进入DataWorks 数据集成控制台，新增 MongoDB类型数据源。

具体参数如下所示，测试数据源连通性通过即可点击完成。由于本文中MongoDB处于VPC环境下，因此数据源类型需选择有公网IP。

访问地址及端口号可通过在 MongoDB管理控制台点击实例名称获取，如下图所示。

新建数据同步任务

在DataWorks上新建数据同步类型节点。

新建的同时，在DataWorks新建一个建表任务，用于存放JSON数据，本例中新建表名为mqdata。

表参数可以通过图形化界面完成。本例中mqdata表仅有一列，类型为string，列名为MQ data。

完成上述新建后，您可以在图形化界面进行数据同步任务参数的初步配置，如下图所示。选择目标数据源名称为odps_first，选择目标表为刚建立的mqdata。数据来源类型为MongoDB，选择我们刚创建的数据源mongodb_userlog。完成上述配置后，点击转换为脚本，跳转到脚本模式。

脚本模式代码示例如下。


{
    "type": "job",
    "steps": [
        {
            "stepType": "mongodb",
            "parameter": {
                "datasource": "mongodb_userlog",
 //数据源名称
                "column": [
                    {
                        "name": "store.bicycle.color", //JSON字段路径，本例中提取color值
                        "type": "document.document.string" //本栏目的字段数需和name一致。假如您选取的JSON字段为一级字段，如本例中的expensive，则直接填写string即可。
                    }
                ],
                "collectionName //集合名称": "userlog"
            },
            "name": "Reader",
            "category": "reader"
        },
        {
            "stepType": "odps",
            "parameter": {
                "partition": "",
                "isCompress": false,
                "truncate": true,
                "datasource": "odps_first",
                "column": [
     //MaxCompute表列名                 "mqdata"
                ],
                "emptyAsNull": false,
                "table": "mqdata"
            },
            "name": "Writer",
            "category": "writer"
        }
    ],
    "version": "2.0",
    "order": {
        "hops": [
            {
                "from": "Reader",
                "to": "Writer"
            }
        ]
    },
    "setting": {
        "errorLimit": {
            "record": ""
        },
        "speed": {
            "concurrent": 2,
            "throttle": false,
            "dmu": 1
        }
    }
}

完成上述配置后，点击运行接即可。运行成功日志示例如下所示。

结果验证

在您的业务流程中新建一个ODPS SQL节点。

您可以输入 SELECT * from mqdata;语句，查看当前mqdata表中数据。当然这一步您也可以直接在 MaxCompute客户端中输入命令运行。

JSON数据从MongoDB迁移到MaxCompute最佳实践

数据及账号准备

使用DataWorks提取数据到MaxCompute

结果验证

阿里巴巴大数据计算

热门文章

最新文章

相关产品

相关课程

相关电子书

推荐镜像

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

JSON数据从MongoDB迁移到MaxCompute最佳实践

数据及账号准备

使用DataWorks提取数据到MaxCompute

结果验证

阿里巴巴大数据计算

热门文章

最新文章

相关产品

相关课程

相关电子书

推荐镜像