DataWorks中OSS ReaderORC或Parquet文件读取OSS？

展开

收起

真的很搞笑 2023-11-20 07:51:00 292 版权

3 条回答

写回答

取消提交回答

vohelon

OSS数据源为您提供读取和写入OSS的双向通道，本文为您介绍DataWorks的OSS数据同步的能力支持情况。https://help.aliyun.com/zh/dataworks/user-guide/oss-data-source?spm=a2c4g.11186623.0.i179
OSS Reader实现了从OSS读取数据并转为数据集成协议的功能，OSS本身是无结构化数据存储。对于数据集成而言，OSS Reader支持的功能如下。

2023-11-20 14:11:02

赞同 1 展开评论
小周sir

面对过去，不要迷离；面对未来，不必彷徨；活在今天，你只要把自己完全展示给别人看。
是的，DataWorks支持使用OSS Reader ORC或Parquet文件读取OSS中的数据。OSS Reader ORC和Parquet文件是两种常见的大容量存储格式，可以提高读取速度和效率。这两种格式都是基于列式存储，而不是行式存储，从而节省磁盘空间并加快查询速度。以下是使用这两种格式读取OSS数据的基本步骤：
1. 在DataWorks中配置OSS Reader ORC或Parquet格式的读取参数。
2. 将数据写入OSS，使其符合上述格式的要求。
3. 启动任务，使用上述格式读取数据。
2023-11-20 13:52:28

赞同展开评论
sunrr
在DataWorks中，如果你想使用OSS Reader来读取OSS上的ORC或Parquet文件，你需要先安装对应的插件。以下是安装步骤：
1. 登录到DataWorks控制台。
2. 在左侧导航栏选择“数据管理”，进入数据管理页面。
3. 在数据管理页面，选择你需要操作的MaxCompute表。
4. 在表操作页面，点击“SQL编辑器”按钮，打开SQL编辑器。
5. 在SQL编辑器中，输入以下SQL语句：
  
  CREATE EXTERNAL TABLE IF NOT EXISTS oss_table ( column1 string, column2 int, ... ) STORED AS ORC LOCATION 'oss://bucket/prefix';
  其中，column1、column2等是你的列名，bucket是你的OSS桶名，prefix是你的OSS文件的前缀。
6. 输入完成后，点击“执行”按钮，系统会自动执行这个SQL语句，并显示执行结果。
完成上述步骤后，你就可以在MaxCompute中使用这个表来读取OSS上的ORC或Parquet文件了。
2023-11-20 09:38:45

赞同展开评论

DataWorks中OSS ReaderORC或Parquet文件读取OSS？

大数据开发治理DataWorks

相关文章

相关解决方案

热门讨论

热门文章