如何在dataworks的datastudio中通过shell去执行？

如何在dataworks的datastudio中通过shell去执行odps sql或者编写datax同步脚本有无案例借鉴？

展开

收起

真的很搞笑 2023-09-16 19:24:01 388 版权

阿里云 AI 助理回答

在DataWorks的DataStudio中，通过Shell执行ODPS SQL或编写DataX同步脚本是常见的需求。以下是详细的步骤和案例说明，帮助您完成相关操作。

一、通过Shell执行ODPS SQL

1. Shell调用ODPS SQL的基本方法

在DataWorks中，可以通过Shell节点调用odpscmd命令行工具来执行ODPS SQL语句。具体调用方式如下：

/opt/taobao/tbdpapp/odpswrapper/odpsconsole/bin/odpscmd \
-u <accessid> \
-p <accesskey> \
-project <project_name> \
-endpoint <endpoint_url> \
-e "SQL语句"

参数说明：
- <accessid> 和 <accesskey>：MaxCompute项目的访问凭证。
- <project_name>：目标MaxCompute项目名称。
- <endpoint_url>：MaxCompute服务的Endpoint地址。
- "SQL语句"：需要执行的SQL语句。

注意：请确保替换上述参数为实际值，并确认Shell节点运行环境已安装odpscmd工具。

2. 示例代码

以下是一个通过Shell节点执行ODPS SQL的示例：

/opt/taobao/tbdpapp/odpswrapper/odpsconsole/bin/odpscmd \
-u test_accessid \
-p test_accesskey \
-project test_project \
-endpoint http://service.odps.aliyun.com/api \
-e "INSERT INTO students PARTITION(gender='boy') VALUES (1,'张三',15,DATE '2008-05-15');"

此示例将向students表插入一条数据。

二、编写DataX同步脚本

1. DataX同步任务的基本流程

DataX是阿里云提供的高效数据同步工具，支持多种数据源之间的数据迁移。在DataWorks中，可以通过脚本模式配置DataX同步任务，具体步骤如下：

创建离线同步节点：
- 在DataStudio中，右键单击业务流程，选择新建节点 > 数据集成 > 离线同步。
- 填写节点名称并确认。
编辑脚本：
- 配置数据源的读取端（Reader）和写入端（Writer）。
- 定义字段映射、通道控制等参数。
保存并运行：
- 保存脚本后，提交并运行同步任务。

2. 脚本配置示例

以下是一个通过脚本模式配置DataX同步任务的示例，用于将MaxCompute数据同步至MySQL：

{
  "job": {
    "content": [
      {
        "reader": {
          "name": "odpsreader",
          "parameter": {
            "partition": ["ds=20231001"],
            "datasource": "odps_first",
            "column": ["*"],
            "table": "source_table"
          }
        },
        "writer": {
          "name": "mysqlwriter",
          "parameter": {
            "datasource": "mysql_first",
            "column": ["id", "name", "age"],
            "table": "target_table"
          }
        }
      }
    ],
    "setting": {
      "speed": {
        "channel": 3
      }
    }
  }
}

参数说明：
- reader：定义数据读取端，此处为MaxCompute数据源。
- writer：定义数据写入端，此处为MySQL数据源。
- partition：指定MaxCompute表的分区信息。
- column：指定需要同步的字段。
- channel：设置并发通道数以控制同步速度。

注意：确保数据源已在DataWorks中正确配置，并且网络连通性正常。

三、案例借鉴

案例1：通过Shell执行ODPS SQL

假设需要定期清理MaxCompute中的历史数据，可以通过Shell节点执行以下SQL：

/opt/taobao/tbdpapp/odpswrapper/odpsconsole/bin/odpscmd \
-u test_accessid \
-p test_accesskey \
-project test_project \
-endpoint http://service.odps.aliyun.com/api \
-e "DELETE FROM history_data WHERE ds < '20230101';"

此脚本会删除history_data表中早于2023年1月1日的数据。

案例2：通过DataX同步MaxCompute数据至MySQL

假设需要将MaxCompute中的日志数据同步至MySQL进行分析，可以使用以下脚本：

{
  "job": {
    "content": [
      {
        "reader": {
          "name": "odpsreader",
          "parameter": {
            "partition": ["ds=20231001"],
            "datasource": "odps_log",
            "column": ["log_id", "log_time", "log_content"],
            "table": "log_table"
          }
        },
        "writer": {
          "name": "mysqlwriter",
          "parameter": {
            "datasource": "mysql_analysis",
            "column": ["id", "time", "content"],
            "table": "analysis_table"
          }
        }
      }
    ],
    "setting": {
      "speed": {
        "channel": 5
      }
    }
  }
}

此脚本将log_table表中的日志数据同步至MySQL的analysis_table表中。