是时候更新数据治理的架构了

简介: 随着公司越来越多的利用数据为企业提供支撑,推动创新。了解数据的准确性,可靠性就非常重要。数十年来,对于数据治理的工作一直依靠数据目录来完成,但是这就足够了吗?

数据目录


大家对于数据目录非常的熟悉了,有点类似于图书馆的目录。数据目录作为元数据的清单,向用户提供数据的可访问性,状态和位置等等信息。在过去的相当长的一段时间,数据目录是作为数据管理和数据治理的工具。

对于大多数数据leader来说,首要任务之一就是建立数据目录。

数据目录应包含的功能有:

去哪里寻找数据?

数据重要吗?

数据的内容是什么?

数据的关联性如何?

如何使用这些数据?

但是,随着数据操作的成熟和数据分析的日益复杂,传统的数据目录已经无法满足这些要求了。


数据目录的不足


尽管数据目录具有记录数据的能力,但是让用户探索数据的能力不足,对于数据质量的问题也没有做根本的解决。

主要原因有三个:

1、缺乏自动化

2、无法随着数据的增长进行扩展


自动化能力

传统的数据目录和治理方法通常依靠数据团队来繁重地进行手工数据输入,随着数据资产的增加,他们不断的更新目录。

这种方法不仅耗时,而且需要大量的人工操作。对于数据从业人员,数据治理是一项持续的战斗,需要更多的自动化来提高效率。


随数据变化而扩展的能力

数据目录在梳理结构化数据时效果很好,但是最新的情况已经发生了改变。非结构化数据变得越来越重要。

非结构化数据的特点是没有预定义的模型,必须经过多次转换才能使用。

最重要的是,未来不应该仅仅是简单地描述数据,还要从数据使用的角度来理解数据。

对于这些变化我们需要扩展的能力,不然将举步维艰。

传统的数据目录在接收状态下管理元数据,但是数据一直在变化,数据的实际状况就会越来越失去控制。

image.png

现在,数据趋向于自我描述,也就是在单个包中包含了数据,也包含了数据的元数据。

如何解决这些问题呢?


数据目录2.0 = 数据探索


image.png

除了对数据进行分类之外,元数据和数据管理策略还必须结合数据探索的过程。这是一种实时了解分布式数据资产运行状况的新方法。

目前的大部分元数据治理方案也采用了这种架构。

数据探索服务通过根据一组特定使用者对数据的摄取,存储,聚合和使用方式,提供对特定领域的动态了解,

从而取代了对数据目录。

与数据目录一样,有着标准和交互操作能力。但是与数据目录不同,数据探索可以实时了解数据的当前状态。

数据探索可以解决的问题:

  • 最新的数据集是什么?哪些数据集可以弃用?
  • 上次更新该表的时间是什么时候?
  • 谁有权访问这些数据?
  • 此数据的上游和下游依赖是什么?


几个重要的功能点:

自动化的数据探索服务

数据团队应该能够在没有专门的支持团队的情况下轻松利用其数据目录。数据工具的自助服务,自动化和工作流程编排消除了数据管道各个阶段之间以及过程中的孤岛,使人们更容易理解和访问数据。更高的可访问性自然会导致更多的数据采用,从而减轻数据工程团队的负担。


数据血缘

数据探索很大程度上依赖于自动表和字段的血缘关系来映射数据资产之间的上游和下游依赖性。

血缘有助于在正确的时间显示正确的信息,并绘制数据资产之间的连接,这样可以更好的管理数据何时中断的问题。


数据质量监控

需要对各个阶段对于数据的缺失,错误等等问题进行监控,这应该是一个监控平台,但发生问题时,能及时的找出原因。

强大的数据探索依赖于自动化和可扩展的数据管理。因此,要在企业中真正实现数据探索,就需要重新考虑如何对数据目录进行升级。

只有了解数据的状态以及如何在整个生命周期的各个阶段使用它们,我们才能相信数据。


相关文章
|
2月前
|
消息中间件 存储 缓存
十万订单每秒热点数据架构优化实践深度解析
【11月更文挑战第20天】随着互联网技术的飞速发展,电子商务平台在高峰时段需要处理海量订单,这对系统的性能、稳定性和扩展性提出了极高的要求。尤其是在“双十一”、“618”等大型促销活动中,每秒需要处理数万甚至数十万笔订单,这对系统的热点数据处理能力构成了严峻挑战。本文将深入探讨如何优化架构以应对每秒十万订单级别的热点数据处理,从历史背景、功能点、业务场景、底层原理以及使用Java模拟示例等多个维度进行剖析。
74 8
|
2月前
|
存储 分布式计算 数据挖掘
数据架构 ODPS 是什么?
数据架构 ODPS 是什么?
575 7
|
2月前
|
数据采集 搜索推荐 数据管理
数据架构 CDP 是什么?
数据架构 CDP 是什么?
104 2
|
5月前
|
机器学习/深度学习 数据采集 人工智能
揭秘!47页文档拆解苹果智能,从架构、数据到训练和优化
【8月更文挑战第23天】苹果公司发布了一份47页的研究文档,深入解析了其在智能基础语言模型领域的探索与突破。文档揭示了苹果在此领域的雄厚实力,并分享了其独特的混合架构设计,该设计融合了Transformer与RNN的优势,显著提高了模型处理序列数据的效能与表现力。然而,这种架构也带来了诸如权重平衡与资源消耗等挑战。苹果利用海量、多样的高质量数据集训练模型,但确保数据质量及处理噪声仍需克服。此外,苹果采取了自监督与无监督学习相结合的高效训练策略,以增强模型的泛化与稳健性,但仍需解决预训练任务选择及超参数调优等问题。
169 66
|
1月前
|
监控 数据可视化 架构师
为什么企业需要开展架构治理?
随着数字化转型加速,企业面临的技术和业务环境日益复杂,传统架构难以应对快速变化的需求。企业架构治理成为数字化转型的关键,通过确保技术与战略对接、优化资源利用、降低风险和复杂性,提升企业灵活性、效率和创新能力,支持快速响应市场变化,推动数字化转型成功。
107 7
为什么企业需要开展架构治理?
|
1月前
|
监控 数据可视化
如何通过建模工具实现企业架构治理全流程管理
企业架构治理工具通过构建统一的架构语言、可视化建模、流程管理、资源整合和多场景分析,实现企业架构的全生命周期管理。该工具赋能企业数字化转型,确保业务、平台、数据及技术相互耦合闭环,提供从规划到决策的一站式服务,助力提升业务运营、优化组织管理和加速数字化建设。
47 2
如何通过建模工具实现企业架构治理全流程管理
|
17天前
|
容灾 网络协议 数据库
云卓越架构:云上网络稳定性建设和应用稳定性治理最佳实践
本文介绍了云上网络稳定性体系建设的关键内容,包括面向失败的架构设计、可观测性与应急恢复、客户案例及阿里巴巴的核心电商架构演进。首先强调了网络稳定性的挑战及其应对策略,如责任共担模型和冗余设计。接着详细探讨了多可用区部署、弹性架构规划及跨地域容灾设计的最佳实践,特别是阿里云的产品和技术如何助力实现高可用性和快速故障恢复。最后通过具体案例展示了秒级故障转移的效果,以及同城多活架构下的实际应用。这些措施共同确保了业务在面对网络故障时的持续稳定运行。
|
20天前
|
运维 监控 安全
天财商龙:云上卓越架构治理实践
天财商龙成立于1998年,专注于为餐饮企业提供信息化解决方案,涵盖点餐、收银、供应链和会员系统等。自2013年起逐步实现业务上云,与阿里云合作至今已十年。通过采用阿里云的WA体系,公司在账号管理、安全保障、监控体系和成本管控等方面进行了全面优化,提升了业务稳定性与安全性,并实现了显著的成本节约。未来,公司将持续探索智能化和全球化发展,进一步提升餐饮行业的数字化水平。
|
4月前
|
存储 搜索推荐 数据库
MarkLogic在微服务架构中的应用:提供服务间通信和数据共享的机制
随着微服务架构的发展,服务间通信和数据共享成为关键挑战。本文介绍MarkLogic数据库在微服务架构中的应用,阐述其多模型支持、索引搜索、事务处理及高可用性等优势,以及如何利用MarkLogic实现数据共享、服务间通信、事件驱动架构和数据分析,提升系统的可伸缩性和可靠性。
66 5
|
3月前
|
存储 大数据 数据处理
洞察未来:数据治理中的数据架构新思维
数据治理中的数据架构新思维对于应对未来挑战、提高数据处理效率、加强数据安全与隐私保护以及促进数据驱动的业务创新具有重要意义。企业需要紧跟时代步伐,不断探索和实践新型数据架构,以洞察未来发展趋势,为企业的长远发展奠定坚实基础。

热门文章

最新文章