DataWorks生命周期是什么？

展开

收起

真的很搞笑 2023-12-10 18:54:00 136 0

2 条回答

写回答

取消提交回答

小周sir

面对过去，不要迷离；面对未来，不必彷徨；活在今天，你只要把自己完全展示给别人看。

DataWorks的生命周期主要分为两部分：数据同步时间和表的生命周期。

在数据同步方面，DataWorks会以数据同步的时间作为分区的依据。例如，如果业务系统产生数据的时间被标记为Bizdate，那么就会按照(T+1)加工，一般是每天计算前一天的业务数据。这样，表就会按照这个业务时间来分区，不同的分区就存不同业务系统时间的数据。

对于表的生命周期，这是指从最后一次更新的时间算起，在经过指定的时间后没有变动，则此表（分区）将被MaxCompute自动回收。这个指定的时间就是生命周期。对于非分区表，当LastModifiedTime超过设定的生命周期时长时，MaxCompute会回收这些数据并删除对应的表。而对于分区表，则根据各分区的LastModifiedTime判断该分区数据是否该被回收，当最后一个分区被回收后，该表不会被删除。

您还可以在DataWorks中修改MaxCompute表的生命周期，具体步骤是进入DataWorks的数据源配置页面，找到对应的MaxCompute数据源，然后在数据源配置页面中找到MaxCompute表的配置选项，并点击“编辑”按钮。此外，DataWorks还默认为您创建了天、周、月等9个基础周期粒度，您可以根据实际业务需求，在该周期粒度的基础上，创建更细粒度的时间周期。

2023-12-11 11:58:08

赞同展开评论打赏

穿过生命散发芬芳

表的生命周期（Lifecycle），指表（分区）数据从最后一次更新的时间算起，在经过指定的时间后没有变动，则此表（分区）将被MaxCompute自动回收，这个指定的时间就是生命周期。生命周期回收为每天定时启动，扫描全量分区。

设置生命周期

--创建新表。
 CREATE [external] TABLE [if not exists] <table_name>
 [(<col_name> <data_type> [default <default_value>] [comment <col_comment>], ...)]
 [comment <table_comment>]
 [partitioned BY (<col_name> <data_type> [comment <col_comment>], ...)]
 --用于创建聚簇表时设置表的Shuffle和Sort属性。
 [clustered BY | range clustered BY (<col_name> [, <col_name>, ...]) [sorted BY (<col_name> [ASC | DESC] [, <col_name> [ASC | DESC] ...])] INTO <number_of_buckets> buckets] 
 --仅限外部表。
 [stored by StorageHandler] 
 --仅限外部表。
 [with serdeproperties (options)] 
 --仅限外部表。
 [location <osslocation>] 
 --生命周期
 lifecycle <days>;

--基于已存在的表创建具备相同结构的新表但不复制数据，支持外部表和湖仓一体外部项目中的表。
create table [if not exists] <table_name> like <existing_table_name> [lifecycle <days>];

——参考来源于阿里云官方文档。

2023-12-11 08:00:55

赞同 1 展开评论打赏

DataWorks生命周期是什么？

大数据开发治理DataWorks

相关产品

热门讨论

热门文章

相关课程

相关电子书

相关实验场景

DataWorks生命周期是什么？

大数据开发治理DataWorks

相关产品

热门讨论

热门文章

相关课程

相关文章

相关电子书

相关实验场景