官宣！AWS Athena正式可查询Apache Hudi数据集-阿里云开发者社区

官宣！AWS Athena正式可查询Apache Hudi数据集

2022-05-06 273

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Apache Hudi是一个开源的增量数据处理框架，提供了行级insert、update、upsert、delete的细粒度处理能力（Upsert表示如果数据集中存在记录就更新；否则插入）。

1. 引入

Apache Hudi是一个开源的增量数据处理框架，提供了行级insert、update、upsert、delete的细粒度处理能力（Upsert表示如果数据集中存在记录就更新；否则插入）。

Hudi处理数据插入和更新，不会创建太多的小文件(小文件会导致查询端性能降低)，Apache Hudi自动管理及合并小文件，让其保持指定大小，这避免了自建解决方案来监控和重写小文件为大文件。

Hudi数据集在如下场景下非常适用

使用GDPR和CCPA法规来删除用户个人信息或修改个人信息用途。
处理传感器或IoT设备的流式数据，涉及数据插入和更新。
实现CDC系统

Hudi使用开放的数据格式管理S3的数据集。现在Athena可以查询Hudi数据集，但暂还不支持写入，Athena使用Apache Hudi 0.5.2-incubating版本，0.5.2-incubating版本信息

2. Hudi数据集类型

Hudi数据集有如下类型

Copy on Write (CoW) – 使用Parquet列式存储，每次更新将会创建一个新版本。
Merge on Read (MoR) – 使用Parquet列式 + Avro行式存储，更新将会写入delta日志文件，后面将会和Parquet列式文件进行压缩生成新版本列式文件。

对于CoW数据集，对记录更新时，包含记录的文件将会被重写；对于MoR数据集，对记录更新时，Hudi仅仅只会写更新的值。因此MoR更适合重写的场景，CoW更适合重读场景（数据很少变更）。

Hudi提供了三种逻辑视图来访问数据：

Read-optimized 视图 – 提供CoW表最新提交的数据集和MoR表最新压缩的数据集，均读取Parquet文件。
Incremental 视图 – 提供CoW表中两次提交的变更流，便于下游ETL作业。
Real-time 视图 – 提供MoR表最新提交的数据，在查询时合并列式和行式文件。

现在Athena只支持Read-optimized视图，这提供了更好的查询性能但未包含最新的delta提交。关于数据集类型做的tradeoff，可以参考Hudi文档Storage Types & Views 。

3. 考虑及限制

Athena对Hudi数据集仅支持查询Read-optimized视图

对于CoW类型，Athena支持快照查询；
对于MoR类型，Athena支持读优化查询；

Athena对Hudi数据集不支持CTAS或INSERT INTO，更多关于如何写入Hudi数据集，可参考

Amazon EMR 发布指南中玩转Hudi数据集
Apache Hudi文档：写Hudi表

Athena对Hudi表不支持使用MSCK REPAIR TABLE。如果需要加载非Glue创建的Hudi表，请使用ALTER TABLE ADD PARTITION

4. 创建Hudi表

本部分将提供Athena中创建分区和非分区Hudi表的建表示例。

如果已经在AWS Glue中创建了Hudi表，那么可以直接使用Athena查询。如果在Athena中创建Hudi表，在查询之前必须运行ALTER TABLE ADD PARTITION来加载数据。

4.1 Copy on Write (CoW)建表示例

4.1.1 非分区CoW表

下面示例会在Athena中创建非分区CoW表

CREATE EXTERNAL TABLE `non_partition_cow`(
  `_hoodie_commit_time` string,
  `_hoodie_commit_seqno` string,
  `_hoodie_record_key` string,
  `_hoodie_partition_path` string,
  `_hoodie_file_name` string,
  `event_id` string,
  `event_time` string,
  `event_name` string,
  `event_guests` int,
  `event_type` string)
ROW FORMAT SERDE
  'org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveSerDe'
STORED AS INPUTFORMAT
  'org.apache.hudi.hadoop.HoodieParquetInputFormat'
OUTPUTFORMAT
  'org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputFormat'
LOCATION
  's3://bucket/folder/non_partition_cow'

4.1.2 分区CoW表

下面示例会在Athena中创建分区CoW表

CREATE EXTERNAL TABLE `partition_cow`(
  `_hoodie_commit_time` string, 
  `_hoodie_commit_seqno` string, 
  `_hoodie_record_key` string, 
  `_hoodie_partition_path` string, 
  `_hoodie_file_name` string, 
  `event_id` string, 
  `event_time` string, 
  `event_name` string, 
  `event_guests` int)
PARTITIONED BY ( 
  `event_type` string)
ROW FORMAT SERDE 
  'org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveSerDe' 
STORED AS INPUTFORMAT 
  'org.apache.hudi.hadoop.HoodieParquetInputFormat' 
OUTPUTFORMAT 
  'org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputFormat'
LOCATION
  's3://bucket/folder/partition_cow'

下面ALTER TABLE ADD PARTITION示例会添加两个分区到partition_cow 表

ALTER TABLE partition_cow ADD
  PARTITION (event_type = 'one') LOCATION 's3://bucket/folder/partition_cow/one/'
  PARTITION (event_type = 'two') LOCATION 's3://bucket/folder/partition_cow/two/'

4.2 Merge on Read (MoR)建表示例

Hudi对于MoR类型将会在Hive Metastore中创建两张表：一张由你指定的表，可提供Read-optimized视图，另一张以_rt结尾的表，可提供Real-time视图。然而当你在Athena创建MoR表时，也只能查询read-optimized视图（real-time视图支持社区正在进行代码Review，不久后可用）。

4.2.1 非分区MoR表

下面示例会在Athena中创建非分区MoR表

CREATE EXTERNAL TABLE `nonpartition_mor_ro`(
  `_hoodie_commit_time` string, 
  `_hoodie_commit_seqno` string, 
  `_hoodie_record_key` string, 
  `_hoodie_partition_path` string, 
  `_hoodie_file_name` string, 
  `event_id` string, 
  `event_time` string, 
  `event_name` string, 
  `event_guests` int, 
  `event_type` string)
ROW FORMAT SERDE 
  'org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveSerDe' 
STORED AS INPUTFORMAT 
  'org.apache.hudi.hadoop.HoodieParquetInputFormat' 
OUTPUTFORMAT 
  'org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputFormat'
LOCATION
  's3://bucket/folder/nonpartition_mor'

4.2.2 分区MoR表

下面示例会在Athena中创建分区MoR表

CREATE EXTERNAL TABLE `partition_mor_ro`(
  `_hoodie_commit_time` string, 
  `_hoodie_commit_seqno` string, 
  `_hoodie_record_key` string, 
  `_hoodie_partition_path` string, 
  `_hoodie_file_name` string, 
  `event_id` string, 
  `event_time` string, 
  `event_name` string, 
  `event_guests` int)
PARTITIONED BY ( 
  `event_type` string)
ROW FORMAT SERDE 
  'org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveSerDe' 
STORED AS INPUTFORMAT 
  'org.apache.hudi.hadoop.HoodieParquetInputFormat' 
OUTPUTFORMAT 
  'org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputFormat'
LOCATION
  's3://bucket/folder/partition_mor'

下面ALTER TABLE ADD PARTITION示例会添加两个分区到partition_mor_ro表

ALTER TABLE partition_cow ADD
  PARTITION (event_type = 'one') LOCATION 's3://bucket/folder/partition_mor/one/'
  PARTITION (event_type = 'two') LOCATION 's3://bucket/folder/partition_mor/two/'

官宣！AWS Athena正式可查询Apache Hudi数据集

1. 引入

2. Hudi数据集类型

3. 考虑及限制

4. 创建Hudi表

4.1 Copy on Write (CoW)建表示例

4.1.1 非分区CoW表

4.1.2 分区CoW表

4.2 Merge on Read (MoR)建表示例

4.2.1 非分区MoR表

4.2.2 分区MoR表

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

官宣！AWS Athena正式可查询Apache Hudi数据集

1. 引入

2. Hudi数据集类型

3. 考虑及限制

4. 创建Hudi表

4.1 Copy on Write (CoW)建表示例

4.1.1 非分区CoW表

4.1.2 分区CoW表

4.2 Merge on Read (MoR)建表示例

4.2.1 非分区MoR表

4.2.2 分区MoR表

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像