开发者社区 > 大数据与机器学习 > 大数据开发治理DataWorks > 正文

DataWorks中OSS ReaderORC或Parquet文件读取OSS?

DataWorks中OSS ReaderORC或Parquet文件读取OSS?

展开
收起
cuicuicuic 2023-11-20 07:51:00 49 0
3 条回答
写回答
取消 提交回答
  • OSS数据源为您提供读取和写入OSS的双向通道,本文为您介绍DataWorks的OSS数据同步的能力支持情况。https://help.aliyun.com/zh/dataworks/user-guide/oss-data-source?spm=a2c4g.11186623.0.i179
    OSS Reader实现了从OSS读取数据并转为数据集成协议的功能,OSS本身是无结构化数据存储。对于数据集成而言,OSS Reader支持的功能如下。

    image.png

    2023-11-20 14:11:02
    赞同 展开评论 打赏
  • 面对过去,不要迷离;面对未来,不必彷徨;活在今天,你只要把自己完全展示给别人看。

    是的,DataWorks支持使用OSS Reader ORC或Parquet文件读取OSS中的数据。OSS Reader ORC和Parquet文件是两种常见的大容量存储格式,可以提高读取速度和效率。这两种格式都是基于列式存储,而不是行式存储,从而节省磁盘空间并加快查询速度。以下是使用这两种格式读取OSS数据的基本步骤:

    1. 在DataWorks中配置OSS Reader ORC或Parquet格式的读取参数。
    2. 将数据写入OSS,使其符合上述格式的要求。
    3. 启动任务,使用上述格式读取数据。
    2023-11-20 13:52:28
    赞同 展开评论 打赏
  • 在DataWorks中,如果你想使用OSS Reader来读取OSS上的ORC或Parquet文件,你需要先安装对应的插件。以下是安装步骤:

    1. 登录到DataWorks控制台。
    2. 在左侧导航栏选择“数据管理”,进入数据管理页面。
    3. 在数据管理页面,选择你需要操作的MaxCompute表。
    4. 在表操作页面,点击“SQL编辑器”按钮,打开SQL编辑器。
    5. 在SQL编辑器中,输入以下SQL语句:

      CREATE EXTERNAL TABLE IF NOT EXISTS oss_table (
          column1 string,
          column2 int,
          ...
      )
      STORED AS ORC
      LOCATION 'oss://bucket/prefix';
      

      其中,column1column2等是你的列名,bucket是你的OSS桶名,prefix是你的OSS文件的前缀。

    6. 输入完成后,点击“执行”按钮,系统会自动执行这个SQL语句,并显示执行结果。

    完成上述步骤后,你就可以在MaxCompute中使用这个表来读取OSS上的ORC或Parquet文件了。

    2023-11-20 09:38:45
    赞同 展开评论 打赏

DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。

相关产品

  • 大数据开发治理平台 DataWorks
  • 相关电子书

    更多
    OSS运维进阶实战手册 立即下载
    《OSS运维基础实战手册》 立即下载
    OSS运维基础实战手册 立即下载