在阿里云DataWorks中,配置开发脚本模式开发的数据参数包括以下内容:
输入参数:输入参数用于接受传入的参数值,用于实现数据输入。输入参数可以在脚本中使用,通过变量的方式引用参数的值。可以添加多个输入参数,并对其进行类型、默认值、描述等属性的设置。
输出参数:输出参数用于向外部传递计算结果或返回值,用于实现数据输出。输出参数可以在脚本中使用,通过赋值的方式设置参数的值。可以添加多个输出参数,并对其进行类型、描述等属性的设置。
脚本参数:脚本参数用于在脚本中通过变量的方式引用参数的值,通常用于实现数据处理逻辑。可以添加多个脚本参数,并对其进行类型、默认值、描述等属性的设置。
系统参数:系统参数是在DataWorks中预定义的参数值,用于支持特定的业务场景和数据处理需求。系统参数包括日期时间、操作系统、数据源、任务名称、工作流名称等多个维度,可以在脚本中引用系统参数的值。
静态参数:静态参数指在脚本运行过程中不发生变化的参数,通常用于实现代码版本控制和资源管理。可以添加多个静态参数,并对其进行描述等属性的设置。
除了以上参数,DataWorks还支持多种内置函数和表达式,可以用于实现数据处理、计算、转换、过滤等多种操作。在开发脚本模式中,需要根据具体业务场景和数据需求,选取合适的参数和函数进行配置和调整。
DataWorks配置开发脚本模式开发的数据参数包括以下几个:
$bizdate: 业务日期,一般指数据处理的日期。在配置开发脚本时,可以通过${bizdate}来引用。
$partition: 分区,用于定义Hive存储数据的分区。在配置开发脚本时,可以通过${partition}来引用。
$input: 输入数据,可以是表格、文件或者别名。在配置开发脚本时,可以通过${input}来引用。
$output: 输出数据,可以是表格、文件或者别名。在配置开发脚本时,可以通过${output}来引用。
$latest_time: 最近时间,用于更新数据时用来过滤最近的数据。在配置开发脚本时,可以通过${latest_time}来引用。
$context: 上下文,用于记录当前的执行环境,可以包含一些自定义的参数。在配置开发脚本时,可以通过${context}来引用。
$parameter: 参数,由用户自定义的一些参数,可以在配置开发脚本时通过${parameter.参数名}来引用。
以上为DataWorks配置开发脚本模式开发的数据参数,可以在配置开发脚本时根据具体业务需求进行使用。
"通过脚本模式开发的详情请参见通过脚本模式配置任务。脚本配置示例如下,具体参数请参见上文的参数说明。{""order"": {""hops"": [{""from"": ""Reader"",""to"": ""Writer""}]},""setting"": {""errorLimit"": {""record"": ""0""},""speed"": {""throttle"":true,//当throttle值为flase时,mbps参数不生效,表示不限流;当throttle值为true时,表示限流。""concurrent"":1, //作业并发数。""mbps"":""12""//限流}},""steps"": [{""category"": ""reader"",""name"": ""Reader"",""parameter"": {},""stepType"": ""stream""},{""category"": ""writer"",""name"": ""Writer"",""parameter"": {""endpoint"": ""http://xxxx.com:9999"",""accessId"": ""xxxx"",""accessKey"": ""yyyy"",""index"": ""test-1"",""type"": ""default"",""cleanup"": true,""settings"": {""index"": {""number_of_shards"": 1,""number_of_replicas"": 0}},""discovery"": false,""batchSize"": 1000,""splitter"": "","",""column"": [{""name"": ""pk"",""type"": ""id""},{""name"": ""col_ip"",""type"": ""ip""},{""name"": ""col_double"",""type"": ""double""},{""name"": ""col_long"",""type"": ""long""},{""name"": ""col_integer"",""type"": ""integer""},{""name"": ""col_keyword"",""type"": ""keyword""},{""name"": ""col_text"",""type"": ""text"",""analyzer"": ""ik_max_word""},{""name"": ""col_geo_point"",""type"": ""geo_point"" https://help.aliyun.com/document_detail/137770.html此答案整理自钉群“DataWorks交流群(答疑@机器人)”"
在DataWorks配置开发脚本模式开发的数据参数主要有以下几个:
数据源参数:包括数据源名称、连接方式、访问地址、用户名、密码等。
表参数:包括表名、字段信息、数据类型、默认值等。
数据集参数:指定需要读取的数据集信息,包括数据集名称、版本号、数据集类型等。
运行时间参数:指定脚本的运行时间。
自定义参数:开发人员可根据自己的需求,自定义相关的参数,如读取文件路径、输出文件路径等。
调试参数:开发人员在调试时需要使用的参数,包括是否开启调试、调试级别等。
以上是DataWorks配置开发脚本模式开发的一些常见数据参数,你可以根据需要进行相应的配置和设置。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。