DataWorks中PolarDB Reader参数说明是什么?
在DataWorks中,PolarDB Reader是一个用于读取PolarDB数据库数据的组件。它允许您从PolarDB数据库中提取数据,并将其作为输入传递给后续的数据处理和分析流程。
下面是PolarDB Reader组件的常见参数说明:
连接信息:包括数据库连接URL、用户名和密码。这些信息用于建立与PolarDB数据库的连接,并进行数据读取操作。
查询语句:要执行的SQL查询语句,用于指定从数据库中读取数据的条件和返回的字段。可以编写自定义的SELECT语句来获取所需的数据。
数据目标表:可选参数,指定将查询结果写入的目标表。如果需要将查询结果保存到新表或已有表中,请在此处指定目标表名。
起始位置和结束位置:可选参数,用于指定查询结果集的起始位置和结束位置(通常与LIMIT子句一起使用),用于限制返回的数据量。
数据分片:如果您的PolarDB数据库采用了分片技术,可以通过此参数指定要读取的具体分片。
其他高级选项:可以配置其他高级选项,如并行度、提交大小、超时时间等,以优化数据读取性能和控制操作行为。
在DataWorks中,PolarDB Reader是用于读取阿里云PolarDB数据库的数据源插件。当您配置PolarDB Reader作为数据源时,可以设置以下参数:
数据源名称(DataSource Name): 数据源的名称,用于标识该数据源。
JDBC URL(JDBC Url): PolarDB数据库的JDBC连接URL,用于指定数据库的地址、端口和其他连接参数。
用户名(Username): 连接PolarDB数据库所需的用户名。
密码(Password): 连接PolarDB数据库所需的密码。
表名(Table Name): 要读取的表名或视图名,用于指定要从PolarDB数据库读取数据的表或视图。
字段列表(Column List): 要读取的字段列表,用于指定要获取的数据列。可以使用逗号分隔多个字段。
查询条件(Query Condition): 可选项。用于指定筛选数据的查询条件,例如 WHERE 子句。
批量读取大小(Batch Size): 每次读取数据的记录数。可以根据需求调整此值以平衡性能和资源消耗。
以上是一些常见的参数说明,具体参数可能会根据DataWorks版本和PolarDB Reader插件的更新而有所变化。在配置PolarDB Reader数据源时,您可以根据实际情况填写这些参数,并根据需求设置其他参数,以满足您的数据读取要求。
参数 描述 是否必选 默认值
datasource 数据源名称,脚本模式支持添加数据源,此配置项填写的内容必须要与添加的数据源名称保持一致。 是 无
table 选取的需要同步的表名称。 是 无
column 所配置的表中需要同步的列名集合,使用JSON的数组描述字段信息 。默认使用所有列配置,例如[*]。 是 无
splitPk PolarDB Reader进行数据抽取时,如果指定splitPk,表示您希望使用splitPk代表的字段进行数据分片,数据同步因此会启动并发任务进行数据同步,从而提高数据同步的效能。 否 无
where 筛选条件,在实际业务场景中,往往会选择当天的数据进行同步,将where条件指定为gmt_create>$bizdate。 否 无
querySql(高级模式,向导模式不提供) 在部分业务场景中,where配置项不足以描述所筛选的条件,您可以通过该配置型来自定义筛选SQL。当配置该项后,数据同步系统就会忽略column、table和where配置项,直接使用该项配置的内容对数据进行筛选。例如需要进行多表 join 后同步数据,使用select a,b from table_a join table_b on table_a.id = table_b.id。当您配置querySql时,PolarDB Reader直接忽略column、table和where条件的配置,querySql优先级大于table、column、where、splitPk选项。datasource会使用它解析出用户名和密码等信息。 否 无
singleOrMulti(只适合分库分表) 表示分库分表,向导模式转换成脚本模式会主动生成"singleOrMulti":"multi"配置,但脚本模式不会自动生成,您需要手动添加。如果不添加该配置,则仅识别第1个数据源。 是 multi
https://help.aliyun.com/document_detail/137742.html,此回答整理自钉群“DataWorks交流群(答疑@机器人)”
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。