大数据时代,数据就是资产,每个系统的业务数据最终都要汇到数仓系统中,在从业务系统向数仓中抽数时会涉及到增量数据、全量数据问题,业务系统的开发人员在设计表的时候往往只考虑业务功能的实现,考虑数据的整个生命周期的很少,如果一张表没有业务时间属性,那么设计人员一般是不会设计更新时间字段的,业务系统上线后,随着业务的增长,数据量越来越大,没有更新时间字段,每天就要全量抽取送往数仓系统,其实很多没有变化的数据是不必要向数仓送的,但是因为没有更新时间所以没办法,会造成IO资源的浪费, 我在想,数据库本身在设计的时候创建表这一步能不能有个隐藏列,专门用于自动记录一条数据的变化时间,这样下游在抽数的时候用这个隐藏字段只抽取增量数据,降低IO、存储的消耗。(就像区块链的数据结构一样,会记录每条数据的变化时间)
大数据时代,数据就是资产,每个系统的业务数据最终都要汇到数仓系统中。oceanbase数据库内置了每条数据的变化时间字段(自动记录每条数据的变化时间)
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。