第一个方面主要是数据抽取,主要确定要导入数据仓库中的数据,在很多情况下,数据源系统与数据仓库不在同一个数据服务器中,二者往往相互独立,并处于远程系统当中。数据抽取可以远程是的分布式的进行,这涉及到多种方式,主要有全面抽取和增量抽取两个方式。
第二个方面是数据清洁。主要这个方面主要检查数据源中存在着矛盾的数据,按照用户确定的清洁规则进行清洗,数据主要包括数据预处理、标准化处理、查重以及出错处理和修正。
第三个方面是数据格式转换。数据格式转换是把数据源中的数据转换成数据仓库所需要的格式,包括数据格式、数据内容、数据模式的转换。
第四个方面是衍生数据生成,在数据仓库中保存了大量的历史数据,为了保证查询的效率,需要预处理用户常用的查询操作,以提高效率,生成衍生数据。这个些衍生数据既包括数据值数据的运算,也包括分类字段的形成。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。