请问DataWorks中是否支持动态的OSS路径数据读取,例如OSS里面的数据根据Path路径(日期)已经区分,我想动态的根据这个Path路径(日期)进行分别读取CSV或者JSON的数据?
数据工厂支持通过动态OSS路径来读取OSS数据:
您可以使用SQL语句或者动态字段来生成OSS路径。例如:
sql
Copy
select concat('oss://yourbucket/',cast(date_format(now(),'%Y-%m-%d') as string)) as path
上述SQL语句会生成类似oss://yourbucket/2021-08-24这样的OSS路径,其中日期部分是动态生成的。
您也可以使用流计算的动态字段来生成OSS路径。
在OSS告警源或OSS数据源中,您可以指定path字段为动态字段,DataWorks就会根据这个动态路径来读取对应的OSS文件。
DataWorks也支持读取OSS目录下的多个文件,您只需要指定OSS目录的路径,DataWorks会自动读取该目录下的所有文件。
Q:hive的外表oss同步,报配置的path格式有误找不到文件路径:
A:建议将"readMode":"hdfs",改成jdbc模式https://help.aliyun.com/document_detail/143413.html ,这样可以一些隐藏的文档也可以读取到。
可以试试DataWorks的调度参数,在你的路径后面跟上日期调度参数 ,此回答整理自钉群“DataWorks交流群(答疑@机器人)”
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。