元仓的概念https://blog.csdn.net/hdfikcvnlkdfsmgv/article/details/134703875
所谓"元仓",可以理解为存放元数据的数据库。在关系数据库中叫数据字典(data dictionary),在分布式的仓储系统里,如Hadoop数仓工具Hive、Spark平台的Spark SQL,则将其称为metastore。
数仓知识06:什么是元数据?https://blog.csdn.net/weixin_42009408/article/details/124528176
所谓"元仓",可以理解为存放元数据的数据库。在关系数据库中叫数据字典(data dictionary),在分布式的仓储系统里,如Hadoop数仓工具Hive、Spark平台的Spark SQL,则将其称为metastore。
在数据仓库中,元数据是关于数据仓库中数据的信息,包括数据的来源、数据的结构和定义、数据的映射关系、数据的转换规则等。
元仓,即数据仓库元数据,是数据仓库的核心组成部分。它主要记录了各主题的定义、不同层级间的映射关系、监控数据仓库的数据状态以及ETL的任务运行状态。具体来说,元数据包括表名、表所属的数据库(默认是default)、表的拥有者、列/分区字段、表的类型(是否是外部表)、表的数据所在目录等信息。
在数据仓库中,所有描述数据的数据都被称为元数据。这些数据可能来自不同的源系统,例如ERP、CRM等,经过清洗、转换和集成后,被存储在数据仓库中。为了有效地管理和利用这些数据,需要对这些元数据进行统一的管理和维护。
此外,根据其功能和使用场景,数据仓库中的技术元数据一般可以分为四大类:数据源元数据、ETL元数据、数据仓库元数据和BI元数据。这些都是数据分析师在进行数据分析之前需要了解和掌握的重要内容。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。