【话题】浅谈企业数据目录

简介: 关注公众号“达摩院首座”,了解开发者最真实生活

最近又遇到一个数据相关的咨询项目,为一家企业整理数据服务目录,今天就来讨论下企业数据目录架构和它的部署方式。

企业数据目录(EDC)旨在帮助企业与IT人员通过统一的元数据视图(包括技术元数据、业务元数据、用户释义、关联关系、数据质量和用途)来释放企业数据资产的最大能量。

我们从下至上来看下EDC的一个架构,最下面是存储层,在这一层,EDC包含了传统的结构化数据库用来存储EDC的管理员数据、可视化配置数据、数据域的规则,runtime统计数据等等,其中一部分结构化数据来自于各接入应用的元数据,称为模型库服务(Model Repository Service,MRS)使所有接入的应用可以在一个关系型数据库中进行协同;另一部分结构化数据称为数据剖析仓库(Profiling Warehouse,PWH),用来存储数据剖析信息,例如剖析结果和计分卡结果。在存储层EDC也可以接入各种非结构化数据,例如Hadoop分布式存储系统以及其上的HBASE等开源产品。

1.jpg

往上一层,对于接入的结构化数据的数据源,有剖析引擎(Data Profiling Engine)对数据集的唯一性,特征值频率以及数据集所属的数据域进行分析;在另一边Hadoop社区有自己的分布式引擎系统,例如用来快速将各类元数据加载到HBase的Spark组件,以及支持多条件搜索并建立实时索引的Solr组件。

所有的数据处理都是为了能提供数据服务,最通用的不外乎搜索,包括数据间关系、血缘的搜索,数据域的搜索。还有就是生成报表作业的管理计划。除了直接对外提供服务外,这一层还有一些插件对数据进行进一步加工,例如对跨数据集的数据相似性进行比较的分析器,对数据集进行到数据域的归集,以及将非结构化元数据导入到HBase的摄入服务。最终服务层有统一的对外API接口将数据域转化成数据目录作为EDC的主体。

EDC支持的分布式Hadoop产品包括Cloudera,Hortonworks以及Azure HDInsight,在Hadoop上,EDC可以部署自己的HBase,Solr以及Spark实例作为Yarn应用。不过市面上的一些EDC产品,例如Informatica有自带的Hadoop集群,和自身的HBase,Solr和Spark可以打包部署。

2.jpg

EDC的数据源通常来自各业务系统、BI系统、数据库、数仓和数据集成总线,经过存储层的元数据提取及数据剖析在EDC集群内建立元数据集群、创建元数据处理框架(内容包括MRS,监控模型库服务,集群服务,目录服务以及内容管理服务)以及数据域建制(Profiling)即数据集成服务。

3.jpg

上图是EDC服务的架构图。Profiling服务器需要连接PWH和通过内容管理服务关联的参考数据库(REF)。架构服务器(Infrastructure Server)需要连接MRS数据库,其上的EDC服务通过到Spark、HBase和Solr的连接器对接企业的非结构化数据;通过MRS关联数据集成服务深入数据湖对接企业的结构化数据。MRS对外提供开发接口可对数据集成方式及作业管理进行客制化,同时通过分析服务对外输出业务术语表(Business Glossary)。而EDC的对外接口可以给管理员提供对数据域的定义,也可以开放给用户对业务场景进行客制化。

由于EDC牵涉到全域的数据,对于安全管控也是不可忽视的一环,在EDC中往往会通过Kerberos,即三方验证的方法对访问进行权限控制。
4.jpg
上面这张图比较复杂,简单的说即时用户访问凭证通过一个第三方机构来保管,以保证验证的独立性。

5.jpg

以Informatica为例,以上是EDC的仪表盘,点击各个图标可以查看具体的源数据和历史数据。并且通过对大数据的AI分析,可以对未来趋势做出预判。

相关文章
|
6月前
|
SQL 监控 分布式数据库
【解锁数据库监控的神秘力量!】OceanBase社区版与Zabbix的完美邂逅 —— 揭秘分布式数据库监控的终极奥秘!
【8月更文挑战第7天】随着OceanBase社区版的普及,企业广泛采用这一高性能、高可用的分布式数据库。为保障系统稳定,使用成熟的Zabbix监控工具对其进行全方位监控至关重要。本文通过实例介绍如何在Zabbix中配置监控OceanBase的方法,包括创建监控模板、添加监控项(如TPS)、设置触发器及图形展示,并提供示例脚本帮助快速上手。通过这些步骤,可以有效监控OceanBase状态,确保业务连续性。
138 0
|
9月前
|
分布式计算 Hadoop 大数据
大数据成长之路-- hadoop集群的部署(4)退役旧数据节点
大数据成长之路-- hadoop集群的部署(4)退役旧数据节点
127 0
|
关系型数据库 MySQL 数据库
啥?阿里DBA团队总监把MySQL 性能调优 金字塔,写进了800页笔记?
MySQL之所以能成为现在最流行的开源数据库,这跟它的开放性、包容性是分不开的。它的入门门槛低到用一条命令就能把MySQL安装起来,你能在程序开发的入门资料中很容易就找到MySQL的配套使用教程,你可以不用付任何费用就能在自己的环境中部署起来对外承载业务。
阿里大牛撰写"星耀级"MySQL DBA工作笔记!颠覆我对数据库的认知
MySQL是开源数据库方向的典型代表,它拥有成熟的生态体系,同时在可靠性、性能、易用性方面表现出色,它的发展历程见证了互联网的兴衰与成长。 在 DeveloperWeek 上曾发起一个调查,超过 3/5 的受访者使用 SQL,其中MySQL 以 38.9% 的使用率高居榜首,其后依次是 MongoDB(24.6%)、PostgreSQL(17.4%)、Redis(8.4%)和 Cassandra(3.0%)。毫无疑问,以MySQL为主的开源技术生态正变得越来越流行。同样的,对我们掌握MySQL也迫在眉睫。那么,接下来,就让小轩带领大家来深入了解MySQL吧!
|
数据库
组织数据库技术实战心得体会
组织数据库技术实战心得体会
|
机器学习/深度学习 数据采集 存储
世界十大数据目录产品比较
数据目录解决方案旨在处理关键的数据管理问题,对于构建了数据湖或大数据平台的大型企业而言,弄清公司拥有哪些数据是极具挑战性的工作。
世界十大数据目录产品比较
《以架构视角解读和落实银行数字化转型的两份重磅指导文件》电子版下载地址
2021年12月和2022年1月,两份关于银行数字化转型的重量级指导文件—中国人民银行的《金融科技发展规划(2022—2025 年)》和银保监会的《关于银行业保险业数字化转型的指导意见》先后印发,这对在积极筹备数字 化转型工作的各类银行而言,正是 2022 年开年布局的最好指导。两份文件都对银行的数字化转型提出了具体要求,二者各各有侧重、相辅相成、有机融合。
129 0
《以架构视角解读和落实银行数字化转型的两份重磅指导文件》电子版下载地址
|
机器学习/深度学习 存储 数据采集
数据目录已死,数据发现为王
随着企业越来越多地利用数据为研发生产提供动力、推动决策制定创新,了解这些最关键数据资产的健康状况和可靠性至关重要。
数据目录已死,数据发现为王
《以架构视角解读和落实银行数字化转型的两份重磅指导文件》下载地址
2021年12月和2022年1月,两份关于银行数字化转型的重量级指导文件—中国人民银行的《金融科技发展规划(2022—2025 年)》和银保监会的《关于银行业保险业数字化转型的指导意见》先后印发,这对在积极筹备数字 化转型工作的各类银行而言,正是 2022 年开年布局的最好指导。两份文件都对银行的数字化转型提出了具体要求,二者各各有侧重、相辅相成、有机融合。
97 0
《以架构视角解读和落实银行数字化转型的两份重磅指导文件》下载地址
《以架构视角解读和落实银行数字化转型的两份重磅指导文件》电子版地址下载地址
2021年12月和2022年1月,两份关于银行数字化转型的重量级指导文件—中国人民银行的《金融科技发展规划(2022—2025 年)》和银保监会的《关于银行业保险业数字化转型的指导意见》先后印发,这对在积极筹备数字 化转型工作的各类银行而言,正是 2022 年开年布局的最好指导。两份文件都对银行的数字化转型提出了具体要求,二者各各有侧重、相辅相成、有机融合。
100 0
《以架构视角解读和落实银行数字化转型的两份重磅指导文件》电子版地址下载地址