ODPS的数据源如何配置?-问答-阿里云开发者社区-阿里云

开发者社区> 问答> 正文

ODPS的数据源如何配置?

轩墨 2017-10-25 10:21:19 1638

开放数据处理服务(Open Data Processing Service, 简称ODPS)是一个开放的计算平台,如果您要导入到OpenSearch的数据是由ODPS平台计算而产生的,则可以直接配置ODPS源信息,系统会自动去获取数据。[backcolor=transparent]目前只支持全量。
【需注意】ODPS内外网分离,即外网ODPS在内网区域使用会有问题,所以在使用上有很多注意事项,我们整理了接入流程,请移步 OpenSearch对接ODPS(云梯2)流程
[backcolor=transparent]1. 入口有两个:在应用基本配置-数据源中选择ODPS作为数据来源;或者创建应用的时候直接配置ODPS源。详见通过ODPS创建应用。
[backcolor=transparent]2. 配置ODPS源信息
OpenSearch支持当前账号下的ODPS的project,或者已经授权给当前账号访问的project中获取数据。选择“ODPS”数据源后,选择“被授权的project”,输入odps中要访问的project信息进行连接校验(已成功连接的project系统会进行缓存,直接点击对应的project名称即可,无需重新连接)。
如果连接校验失败,则需要检查授权是否存在或授权最近有无变更过。(需注意ODPS表字段若没有权限或权限不对,也会报错。)
配置字段映射关系:OpenSearch为ODPS源的数据提供了若干数据转换插件,如要使用,则在配置字段对应关系的同时,点击“内容转换”列中的“+”符号,则会在源字段被同步到OpenSearch之前,先进行内容转换,再进行同步。
如果内容转换插件由于配置错误、无法连接等错误失效,则源字段仍然会被同步到目标字段,只是内容不会被转换。

【注意】对于ODPS表中的 datetimetimestamp类型系统会自动转化为毫秒数,请将对应OpenSearch字段类型设置为INT。
[backcolor=transparent]3 .选择分区信息
3.1 根据ODPS数据特性,OpenSearch允许用户根据具体需要来指定导入的分区,高级版支持正则表达式,表示导入前一天的数据,结合应用基本信息-索引重建-定时索引重建功能,可以实现每天导入新分区数据的效果。
3.2 [backcolor=transparent]标准版只支持具体分区值的方式,如pt=20161010,不支持正则表达式,可以指定多个具体分区。(等号/逗号/分号/双竖线为系统保留字符,分区列名/列值中应避免出现这些字符):
【高级版应用每天自动导入前1天分区全量数据条件例子】 pt=%Y%m%d || -1 days    【注:pt为分区字段名】

[backcolor=transparent]不同场景下odps分区条件用法,参考如下所示:

  • 1: 支持多个分区过滤规则,不同的分区过滤规则用分号分隔,如pt=1;pt=2将匹配满足分区字段pt=1或者pt=2的所有字段

  • 2: 分区过滤规则,支持指定多个分区字段的值,不同分区字段用逗号分隔,如:pt1=1,pt2=2,pt3=3 将匹配同时满足pt1=1,pt2=2,pt3=3的所有分区【分区中若存在多个字段,则多个字段都必须要指定,否者会报错】

  • 3: 分区字段的值支持通配符 *,表示该分区字段可以为任意的值,这种情况下,过滤规则中也可不写该字段

  • 4: 分区字段的值支持正则表达式,如pt=[0-9]* 将匹配pt值为数字的所有分区

  • 5: 分区字段的值支持时间匹配,匹配规则: pt=包含格式化时间的分区列值||时间间隔表达式。如ds=%Y%m%d || -1 days,表示分区字段为ds,格式为20150510,需要访问1天前的数据。

  • 5.1 格式化时间参数支持标准的时间格式参数,如下表

  • 5.2 时间间隔表达式支持 +/- n week|weeks|day|days|hour|hours|minute|minutes|second|seconds|microsecond|microseconds, +号任务创建时间的表示n周/天/小时/分钟/秒/毫秒后,-号表示任务创建时间的表示n周/天/小时/分钟/秒/毫秒前。

  • 5.3 系统默认会对所有过滤规则,按照+0 days进行时间参数替换,因此,需要注意的是,用于过滤的字段值不能包含下面这些字符串作为普通的字符串参数,如星期三创建的任务,pt=%abc 将匹配pt的值为Wedbc的分区,而不是pt=%abc的分区。

[backcolor=transparent]正则表达式全部可用参数及含义,参考如下:
[backcolor=transparent]

[backcolor=transparent]
缓存 分布式计算 数据处理 MaxCompute 索引
分享到
取消 提交回答
全部回答(0)
大数据
使用钉钉扫一扫加入圈子
+ 订阅

大数据计算实践乐园,近距离学习前沿技术

推荐文章
相似问题
推荐课程