现代数据架构的核心特征:“1个中心+10个强化”

简介: 本文总结了现代数据架构的主要特征,并为正在开发新数据战略的组织提供参考。

每个为决策提供数据的组织都在重新思考其数据架构。与五年前相比,新技术加速改变组织竞争和服务客户的方式。

现代数据驱动的组织不是事后对事件做出反应,而是预测业务需求和市场变化,并主动工作以优化结果。不创新或改造其数据架构的公司会失去客户、资金和市场,失去优势和竞争力。

本文总结了现代数据架构的主要特征,并为正在开发新数据战略的组织提供参考。

什么是数据架构

与设计房屋或建筑物的传统架构师一样,数据架构师创建的数据环境蓝图与组织的短期和长期目标及其独特的文化和背景要求相一致。

对于大多数人来说,将数据架构理解为组织用来管理数据的一组标准产品和工具。但远不止于此。数据架构定义了捕获、转换和向业务用户交付可用数据的流程。最重要的是,它确定了将使用该数据的人员及其独特需求。一个好的数据架构从右到左流动:从数据消费者到数据源——而不是相反。

过去,组织构建了相对静态的 IT 驱动的数据架构。我们称它们为数据仓库。由于底层技术和设计模式,大多数数据仓库需要大量人员来构建和维护,投资回报率极低。大多数都是表面绚丽的企业数据转储,当然有些效果是很好的,为报告和分析提供了丰富的集成维度数据。

现代数据架构仍然可以提供数据仓库——一个灵活、适应性强和敏捷的数据仓库。但正如一些人所说,数据仓库只是现代数据架构或现代分析生态系统的一个组成部分。新的数据环境是一个活生生的有机体,可以检测和响应变化,不断学习和适应,并为每个数据消费者提供受管理的、量身定制的访问能力。

bf7e1c8c506f8d8995b0c4fb4e0f9ed7.jpg

数据架构不是数据平台。后者指的是完成采集、存储、转换和验证数据的引擎和工具。数据平台由处理数据的底层数据库引擎(例如,关系、Hadoop、OLAP)以及使 IT 和业务部门的数据工程师能够创建数据集以供业务使用的数据组装框架组成。

“数据组装”是一个新术语,它取代了以 IT 为中心的内涵的术语“数据集成”。数据组装强化了现代数据架构是业务和 IT 之间协作的概念。

现代数据架构的特征:1个中心和10个强化

1个中心:以数据消费者为中心

现代数据架构不是专注于提取、摄取、转换和呈现信息所需的数据或技术,而是从业务用户及其需求开始并向后流动,以终为始。数据消费者可以是组织内部或外部的,他们的需求因角色、部门和时间而异。良好的数据架构不断发展,以满足新的和不断变化的客户信息需求。

10个需要强化的方面

1.适应性强

 在现代数据架构中,数据像水一样从源系统流向业务用户。该架构的目的是通过创建一系列满足各种业务需求的互连和双向数据管道来管理该流。管道是使用基础数据对象构建的——数据快照、数据增量、数据视图、参考数据、主数据和面向主题的平面表。数据对象作为构建块,不断重复使用、重新利用和补充,以确保高质量的相关数据稳定地流向业务。

2.自动化强 

为了创建一个数据持续流动的适应性架构,设计人员必须使一切自动化。他们必须在数据被摄取时对其进行分析和标记,并将其映射到现有的数据集和属性,这也是元数据注入的过程,他是数据发现的一个关键功能。同样,它还必须检测源模式的变化并识别变化对下游对象和应用程序的影响。在实时环境中,它必须检测异常并通知适当的人并在操作仪表板中触发警报。

3.智能化强

理想的数据架构不仅仅是自动化的;它使用机器学习和人工智能来构建保持数据流动的数据对象、表、视图和模型。它使用智能而不是蛮力来识别数据类型、公共键和连接路径、识别和修复数据质量错误、映射表、识别关系、推荐相关数据集和分析等等。现代数据架构使用智能来学习、调整、提醒和推荐,使管理和使用环境的人更加高效和有效。改变“数据找人”而不是“人找数据”的模式。

4.灵活性强

现代数据架构需要足够灵活以支持多种业务需求。它需要支持多种类型的业务用户、加载操作和刷新率(例如批处理、小批量、流)、查询操作(例如创建、读取、更新、删除)、部署(例如本地、公共云、私有云、混合)、数据处理引擎(例如,关系、OLAP、MapReduce、SQL、图形、映射、规范化)和管道(例如,数据仓库、数据集市、OLAP 多维数据集、可视化发现、实时操作应用程序。)现代数据架构必须是所有人的一切。

5.协作性强

 与 IT 部门构建一切的过去不同,现代数据架构将获取和转换数据的责任分摊到 IT 和业务之间。IT 部门仍然承担着从核心操作系统中提取数据和创建通用可重用构建块的工作。但从那里开始,由业务部门接管。业务部门的数据工程师和分析师使用数据准备和数据目录工具来创建由公司和本地数据组成的自定义数据集,并使用它们来创建和支持业务部门应用程序。这种协作使 IT 不必了解业务环境,而这从来不是它的强项。

6.治理性强

治理是自助服务的关键。现代数据架构为每种类型的用户定义了访问点,以满足他们的信息需求。业务用户主要包括:数据消费者、数据探索者、数据分析师和数据科学家。例如,数据科学家需要能够访问着陆区的原始数据,或者更好的是,构建一个专门沙箱,他们可以将原始数据与他们自己的数据混合在一起。

7.简单性强

最简单的架构就是最好的架构。鉴于当今数据架构中需求的多样性和组件的复杂性,这是一项艰巨的任务。要应用此规则,拥有小数据的组织可能更适合使用具有内置数据管理环境的 BI 工具,而不是大规模并行处理 (MPP) 设备或 Hadoop 系统。为了降低复杂性,组织应努力限制数据移动和数据重复,并倡导统一的数据库平台、数据组装框架和分析平台。

8.扩展性强

在大数据和可变工作负载的时代,组织需要一个可扩展的弹性架构,以适应不断变化的数据处理需求。许多公司现在涌向云平台(公共和私有),以可承受的价格获得按需可扩展性。弹性架构使管理员不必精确校准容量、在必要时限制使用以及不断地过度购买硬件。弹性还催生了许多类型的应用程序和用例,例如按需开发和测试环境、分析沙箱和原型设计环境。

9.安全性强

现代数据架构是一座自由堡垒——也就是说,它为授权用户提供随时访问数据的权限,同时阻止黑客和入侵者。它还符合隐私法规,包括数据安全法、个人信息保护法和适用于各地区的数据保护条例。它通过在摄取时加密数据、屏蔽个人身份信息 (PII) 以及跟踪数据目录中的所有数据元素(包括它们的沿袭、使用和审计跟踪)来实现这一点。生命周期管理确保每个数据对象都有一个所有者、一个位置和一个过时计划。

10.弹性强

任何数据架构都必须具有弹性,具有高可用性、灾难恢复和备份/恢复功能。在现代数据架构中尤其如此,该架构通常在云中的大型服务器上运行,而中断是司空见惯的。因此,需要提供内置冗余和故障转移以及良好的服务水平协议 (SLA),并允许公司以低成本在地理分布的数据中心中设置镜像以进行灾难恢复。

相关文章
|
3月前
|
消息中间件 存储 缓存
十万订单每秒热点数据架构优化实践深度解析
【11月更文挑战第20天】随着互联网技术的飞速发展,电子商务平台在高峰时段需要处理海量订单,这对系统的性能、稳定性和扩展性提出了极高的要求。尤其是在“双十一”、“618”等大型促销活动中,每秒需要处理数万甚至数十万笔订单,这对系统的热点数据处理能力构成了严峻挑战。本文将深入探讨如何优化架构以应对每秒十万订单级别的热点数据处理,从历史背景、功能点、业务场景、底层原理以及使用Java模拟示例等多个维度进行剖析。
79 8
|
3月前
|
存储 分布式计算 数据挖掘
数据架构 ODPS 是什么?
数据架构 ODPS 是什么?
745 7
|
3月前
|
数据采集 搜索推荐 数据管理
数据架构 CDP 是什么?
数据架构 CDP 是什么?
123 2
|
6天前
|
存储 数据采集 人工智能
AllData数据中台架构全览:数据时代的智慧中枢
杭州奥零数据科技有限公司成立于2023年,专注于数据中台业务,维护开源项目AllData并提供商业版解决方案。AllData提供数据集成、存储、开发、治理及BI展示等一站式服务,支持AI大模型应用,助力企业高效利用数据价值。
|
6月前
|
机器学习/深度学习 数据采集 人工智能
揭秘!47页文档拆解苹果智能,从架构、数据到训练和优化
【8月更文挑战第23天】苹果公司发布了一份47页的研究文档,深入解析了其在智能基础语言模型领域的探索与突破。文档揭示了苹果在此领域的雄厚实力,并分享了其独特的混合架构设计,该设计融合了Transformer与RNN的优势,显著提高了模型处理序列数据的效能与表现力。然而,这种架构也带来了诸如权重平衡与资源消耗等挑战。苹果利用海量、多样的高质量数据集训练模型,但确保数据质量及处理噪声仍需克服。此外,苹果采取了自监督与无监督学习相结合的高效训练策略,以增强模型的泛化与稳健性,但仍需解决预训练任务选择及超参数调优等问题。
178 66
|
5月前
|
存储 搜索推荐 数据库
MarkLogic在微服务架构中的应用:提供服务间通信和数据共享的机制
随着微服务架构的发展,服务间通信和数据共享成为关键挑战。本文介绍MarkLogic数据库在微服务架构中的应用,阐述其多模型支持、索引搜索、事务处理及高可用性等优势,以及如何利用MarkLogic实现数据共享、服务间通信、事件驱动架构和数据分析,提升系统的可伸缩性和可靠性。
73 5
|
4月前
|
存储 大数据 数据处理
洞察未来:数据治理中的数据架构新思维
数据治理中的数据架构新思维对于应对未来挑战、提高数据处理效率、加强数据安全与隐私保护以及促进数据驱动的业务创新具有重要意义。企业需要紧跟时代步伐,不断探索和实践新型数据架构,以洞察未来发展趋势,为企业的长远发展奠定坚实基础。
|
6月前
|
安全 网络安全 数据安全/隐私保护
云原生技术探索:容器化与微服务架构的实践之路网络安全与信息安全:保护数据的关键策略
【8月更文挑战第28天】本文将深入探讨云原生技术的核心概念,包括容器化和微服务架构。我们将通过实际案例和代码示例,展示如何在云平台上实现高效的应用部署和管理。文章不仅提供理论知识,还包含实操指南,帮助开发者理解并应用这些前沿技术。 【8月更文挑战第28天】在数字化时代,网络安全和信息安全是保护个人和企业数据的前线防御。本文将探讨网络安全漏洞的成因、加密技术的应用以及提升安全意识的重要性。文章旨在通过分析网络安全的薄弱环节,介绍如何利用加密技术和提高用户警觉性来构建更为坚固的数据保护屏障。
|
6月前
|
存储 监控 安全
大数据架构设计原则:构建高效、可扩展与安全的数据生态系统
【8月更文挑战第23天】大数据架构设计是一个复杂而系统的工程,需要综合考虑业务需求、技术选型、安全合规等多个方面。遵循上述设计原则,可以帮助企业构建出既高效又安全的大数据生态系统,为业务创新和决策支持提供强有力的支撑。随着技术的不断发展和业务需求的不断变化,持续优化和调整大数据架构也将成为一项持续的工作。
|
6月前
|
Java 数据库连接 微服务
揭秘微服务架构下的数据魔方:Hibernate如何玩转分布式持久化,实现秒级响应的秘密武器?
【8月更文挑战第31天】微服务架构通过将系统拆分成独立服务,提升了可维护性和扩展性,但也带来了数据一致性和事务管理等挑战。Hibernate 作为强大的 ORM 工具,在微服务中发挥关键作用,通过二级缓存和分布式事务支持,简化了对象关系映射,并提供了有效的持久化策略。其二级缓存机制减少数据库访问,提升性能;支持 JTA 保证跨服务事务一致性;乐观锁机制解决并发数据冲突。合理配置 Hibernate 可助力构建高效稳定的分布式系统。
96 0