DataWorks配置数据集成时,需要配置什么参数?
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
进行数据集成时,您需要添加数据源后再配置数据源的来源与去向,并在配置过程中设置好集成的数据及数据类型等信息,整个数据集成包含数据提取(使用reader插件提取数据来源的数据)和数据写入(使用writer插件将集成的数据写入数据去向的数据源中)。以下为您介绍使用reader插件提取RestAPI类型数据源的数据时,需要配置的参数。说明 以下的参数包含在添加数据源和配置数据集成任务节点的过程中。当前插件暂不支持使用调度参数。参数 描述 是否必选 默认值 url RESTful接口地址。 是 无 dataMode RESTful请求返回的结果JSON数据的格式。 是 无 responseType 返回结果的数据格式,目前仅支持JSON格式。 是 JSON column 读取字段列表,type指定源数据的类型,name指定当前column数据获取的JSON路径。您可以指定column字段信息,配置如下。 "column":[{"type":"long","name":"a.b" //从a.b路径中查找数据},{"type":"string","name":"a.c"//从a.c路径中查找数据}] 对于您指定的column信息,type和name必须填写。 是 无 dataPath 从返回结果中查询单个JSON对象或者JSON数组的路径。 否 无 method 请求方法,支持get或post两种方式。 是 无 customHeader 传递给RESTful接口的header信息。 否 无 parameters 传递给RESTful接口的参数信息。 否 无 dirtyData 当从指定的column json路径中找不到数据时的处理方式。 是 dirty requestTimes 从RESTful地址中请求数据的次数。 是 single requestParam 若requestTimes设为multiple时,需要指定循环的参数,例如pageNumber,插件会根据设置的startIndex、endIndex、step三个参数循环传递pageNumber参数给RESTful接口,进行多次请求。 否 无 startIndex 循环请求的起点,起点包含在循环请求之内。 否 无 endIndex 循环请求的终点,终点包含在循环请求之内。 否 无 step——该回答整理自钉群“DataWorks交流群(答疑@机器人)”
DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。