由于数据生成后不会发生变化,因此可以很方便地根据数据的生成规律进行分区。较常见的是根据日期进行分区,例如每天1个分区。在RDS数据库中,执行下述语句准备数据。drop table if exists oplog;create table if not exists oplog(optime DATETIME,uname varchar(50),action varchar(50),status varchar(10));Insert into oplog values(str_to_date('2016-11-11','%Y-%m-%d'),'LiLei','SELECT','SUCCESS');Insert into oplog values(str_to_date('2016-11-12','%Y-%m-%d'),'HanMM','DESC','SUCCESS');上述的两条数据作为历史数据,需要先进行一次全量数据同步,将历史数据同步至昨天的分区。在数据开发页面,右键单击业务流程下的表,选择新建表。在新建表对话框中,输入表名(ods_oplog),单击提交。双击ods_oplog表,在右侧的编辑页面单击DDL模式,输入下述建表语句。--创建好MaxCompute表,按天进行分区。create table if not exists ods_oplog(optime datetime,uname string,action string,status string) partitioned by (ds string);配置同步历史数据的任务,详情请参见创建同步任务。测试同步任务成功后,单击节点编辑页面右侧的调度配置,勾选暂停调度并重新提交或发布,避免任务自动调度执行。执行下述语句,向RDS源头表中插入数据作为增量数据。insert into oplog values(CURRENT_DATE,'Jim','Update','SUCCESS');insert into oplog values(CURRENT_DATE,'Kate','Delete','Failed');insert into oplog values(CURRENT_DATE,'Lily','Drop','Failed');配置同步增量数据的任务。在数据来源中设置数据过滤为date_format https://help.aliyun.com/document_detail/137826.html,此回答整理自钉群“DataWorks交流群(答疑@机器人)”
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。