开发者社区 问答 正文

MPP计算引擎 DUMP语法是什么?



Full MPP Mode下使用Dump to ODPS


通过 engine=MPP 的hint和 dump-header 的hint执行MPP Dump to ODPS,示例:<PRE prettyprinted? linenums>

  1. /*+ engine=MPP, dump-header=[DUMP DATA [OVERWRITE] INTO 'odps://project_name/table_name']*/ SELECT ...
  2. /*+ engine=MPP, return-dump-record-count=TRUE, dump-header=[DUMP DATA [OVERWRITE] INTO 'odps://project_name/table_name']*/ SELECT ...


Full MPP Mode下使用Dump to OSS


通过 engine=MPP 的hint和 dump-header 的hint执行MPP Dump to OSS,示例:<PRE prettyprinted? linenums>
  1. /*+ engine=MPP,
  2.     dump-col-del=[,],
  3.     dump-row-del=[\n],
  4.     dump-oss-accesskey-id=xxxx,
  5.     dump-oss-accesskey-secret=xxxx,
  6.     dump-header=[DUMP DATA OVERWRITE INTO 'oss://xxx/xxx/xxx']*/ SELECT ...
  7. /*+ engine=MPP,
  8.     return-dump-record-count=TRUE,
  9.     dump-col-del=[,],
  10.     dump-row-del=[\n],
  11.     dump-oss-accesskey-id=xxxx,
  12.     dump-oss-accesskey-secret=xxxx,
  13.     dump-header=[DUMP DATA OVERWRITE INTO 'oss://xxx/xxx/xxx']*/ SELECT ...

除hint外,MPP计算引擎模式下的DUMP导出命令与LM计算引擎模式一致,请参见“4.2.4 DUMP语法”章节

展开
收起
nicenelly 2017-10-26 15:27:23 2965 分享 版权
阿里云 AI 助理回答

Full MPP Mode下使用Dump进行数据导出说明

1. MPP模式下Dump至ODPS操作

在MaxCompute SQL中,通过特定的Hint指令可以在Full MPP Mode下将查询结果直接导出到ODPS表中。示例如下:

/* engine=MPP, dump-header=[DUMP DATA [OVERWRITE] INTO 'odps://project_name/table_name']*/
SELECT ... -- 请替换为您的实际查询语句

此命令中的engine=MPP指定使用MPP计算引擎,而dump-header内的内容指定了导出的目标ODPS表路径及操作类型(可选OVERWRITE覆盖已有数据)。确保您有权限访问目标项目及表,并且了解此操作可能覆盖现有数据的风险。

2. MPP模式下Dump至OSS操作

同样地,可以利用Hint指令将数据导出到OSS存储中。需要额外配置OSS的访问密钥和分隔符等参数。示例如下:

/* 
engine=MPP,
dump-col-del=[,],    -- 列分隔符
dump-row-del=[\n],   -- 行分隔符
dump-oss-accesskey-id=xxxx,  -- OSS访问密钥ID
dump-oss-accesskey-secret=xxxx, -- OSS访问密钥密钥
dump-header=[DUMP DATA OVERWRITE INTO 'oss://bucket_name/path/to/file'] 
*/
SELECT ... -- 替换为您的SQL查询

这里除了指定MPP引擎外,还设置了列分隔符、行分隔符以及OSS的认证信息,并指定了OSS的导出路径。请确保提供的OSS凭证有效且目标路径正确无误。

注意事项

  • 权限验证:执行上述操作前,请确认当前用户或角色拥有源数据的读取权限以及目标ODPS表或OSS路径的写入权限。
  • 数据安全:在使用AccessKey和Secret时需谨慎,避免泄露敏感信息。
  • 资源消耗:大规模数据导出可能会消耗较多的计算和网络资源,请合理安排执行时间,避免影响其他任务。
  • 格式兼容性:确保导出的数据格式与目标表结构或文件处理需求相匹配。

以上操作均基于MaxCompute SQL的Hint功能实现,除特别指定的Hint外,MPP计算引擎下的DUMP基本语法与LM计算引擎保持一致,详细语法可参考相关文档的“4.2.4 DUMP语法”章节。

有帮助
无帮助
AI 助理回答生成答案可能存在不准确,仅供参考
0 条回答
写回答
取消 提交回答