DataWorks中OSS ReaderORC或Parquet文件读取OSS?
OSS数据源为您提供读取和写入OSS的双向通道,本文为您介绍DataWorks的OSS数据同步的能力支持情况。https://help.aliyun.com/zh/dataworks/user-guide/oss-data-source?spm=a2c4g.11186623.0.i179
OSS Reader实现了从OSS读取数据并转为数据集成协议的功能,OSS本身是无结构化数据存储。对于数据集成而言,OSS Reader支持的功能如下。
是的,DataWorks支持使用OSS Reader ORC或Parquet文件读取OSS中的数据。OSS Reader ORC和Parquet文件是两种常见的大容量存储格式,可以提高读取速度和效率。这两种格式都是基于列式存储,而不是行式存储,从而节省磁盘空间并加快查询速度。以下是使用这两种格式读取OSS数据的基本步骤:
在DataWorks中,如果你想使用OSS Reader来读取OSS上的ORC或Parquet文件,你需要先安装对应的插件。以下是安装步骤:
在SQL编辑器中,输入以下SQL语句:
CREATE EXTERNAL TABLE IF NOT EXISTS oss_table (
column1 string,
column2 int,
...
)
STORED AS ORC
LOCATION 'oss://bucket/prefix';
其中,column1
、column2
等是你的列名,bucket
是你的OSS桶名,prefix
是你的OSS文件的前缀。
输入完成后,点击“执行”按钮,系统会自动执行这个SQL语句,并显示执行结果。
完成上述步骤后,你就可以在MaxCompute中使用这个表来读取OSS上的ORC或Parquet文件了。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。