现代数据架构的十个特征

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 每个为决策而使用数据的组织都在重新思考数据架构。与五年前相比,有大量新技术有望改变企业竞争和服务客户的方式。

   每个为决策而使用数据的组织都在重新思考数据架构。与五年前相比,有大量新技术有望改变企业竞争和服务客户的方式。

   现代数据驱动型组织预测业务需求和市场变化,并主动工作以优化结果,而不是事后对事件做出反应。不更新或重新设计数据架构的公司会失去客户、资金和市场份额。

   本文总结了现代数据架构的主要特征,并为正在开发新的数据策略的组织提供指导。

   一、什么是数据架构

   与设计房屋或建筑的传统架构师一样,数据架构师创建基于企业战略、发展环境、公司文化等需求一致的数据蓝图及短期和长期目标。

   对于大多数组织认为,数据架构定义了组织用于管理数据的一组标准产品和工具。但事实远不止如此。数据架构定义了捕获、转换和向业务用户交付可用数据的流程。重要的是,它明确了使用这些数据的人及其独特的需求。好的数据架构应满足从数据消费者到数据源,而不是从数据源到数据消费者。

   1.数据架构的变化

   在过去,组织构建的是相对静态的IT驱动的数据架构。我们称之为数据仓库。由于底层的技术和设计模式,大多数数据仓库都需要大量的人员来构建和维护,因此投资回报相对比较低。大多数都是被美化的企业数据转储,尽管有些非常漂亮,为报告和分析提供了丰富和谐的集成维度数据。

   现代数据架构可能仍然提供数据仓库,理想情况下是灵活、适应性强和敏捷的数据仓库。但数据仓库只是现代数据架构或现代分析生态系统的一个组成部分

5b8f335c0d7282e96b5a97db1cb943d3.jpg

  2.数据架构不是数据平台

   数据架构不是数据平台。后者指执行移动、整理和验证数据的引擎和工具。数据平台包括处理数据的底层数据库引擎(例如关系型、Hadoop、OLAP),以及数据组装框架,该框架使IT和业务的数据工程师能够创建用于业务消费的数据集。

   “数据组装”是一个新词,它取代了“数据集成”,后者具有以IT为中心的含义。数据组装强化了现代数据架构是业务和IT之间的协作。

   二、现代数据架构的十大特征

   1.以数据消费者为中心

   现代数据架构不再关注采集、存储、转换和展现所需的数据或技术,而是从业务用户及其需求开始,然后向后流动,如上所述。数据消费者可以是组织内部的,也可以是组织外部的,他们的需求因角色、部门和时间而异。良好的数据架构会不断发展,以满足新的和不断变化的数据消费者的需求。

   2.适应性强

   在现代数据架构中,数据像水一样从源系统流向业务用户。该体系结构的目的是通过创建一系列相互连接的双向数据管道来管理数据流,这些管道服务于各种业务需求。管道是使用基本数据对象构造的——数据快照、数据增量、数据视图、引用数据、主数据和面向主题的表。数据对象充当不断重用、补充和转化的构建块,以确保高质量、相关的数据稳定流向业务。

   3.自动化

   为了创建一个数据连续流动的可适应体系结构,设计人员必须将一切都自动化。它们必须在数据被采集时对其进行分析和标记,并将其映射到现有的数据集和属性,也就是元数据注入的过程,这也是数据目录的关键功能。同样,它还必须检测源模型中的更改,并识别更改对下游对象和应用程序的影响。在实时环境中,它必须检测异常并通知适当的人员或在操作指示板中触发警报。

   4.智能化

   理想的数据架构不仅仅是自动化的;它使用机器学习和人工智能来构建数据对象、表格、视图和模型,以保持数据流动。它使用智能而不是蛮力来识别数据类型、通用键和连接路径、识别和修复数据质量错误、映射表、识别关系、推荐相关数据集和分析等等。现代数据架构使用智能来学习、调整、警告和建议,使管理和使用数据的人员更加高效和有效。

   5.灵活性

   现代数据架构需要足够灵活,以支持多种业务需求。它需要支持多种类型的业务用户、加载操作和刷新频率(如批处理、小批处理、流)、查询操作(如创建、读取、更新、删除)、部署(如在企业、公共云、私有云、混合)、数据处理引擎(如关系、OLAP、MapReduce、SQL、映射)和管道(例如,数据仓库、数据集市、OLAP多维数据集、可视化展现、实时操作应用程序)。现代数据架构必须对所有人都适用。

   6.协作性

   与过去IT部门构建一切不同,现代数据架构将IT和业务部门之间获取和转换数据的责任分开。IT部门仍然承担着从核心操作系统中获取数据和创建通用可重用构建块的工作。但从那以后,业务部门就会接管(如果他们有技能、愿望和需要的话)。业务部门的数据工程师和分析师使用数据准备和数据目录工具创建由公司和本地数据组成的自定义数据集,并使用它们创建和支持业务部门应用程序。这种协作使IT不必了解业务上下文,而这也不是IT人员的强项。

   7.治理的

   从本质上讲,治理是自助服务的关键。现代数据架构为每种类型的用户定义访问点,以满足他们的信息需求。主要是四类业务用户的访问点:数据消费者、数据探索者、数据分析师和数据科学家。例如,数据科学家需要获得着陆区域的原始数据,或者更好的是,在一个专门建造的沙箱中,他们可以将公司的原始数据与自己的数据混合在一起。

   8.简单

   最简单的架构就是最好的架构。考虑到当今数据架构中需求的多样性和组件的复杂性,这是一项艰巨的任务。要应用此规则,对于数据较小的组织,使用具有内置数据管理环境的BI工具可能比使用大规模并行处理(MPP)设备或Hadoop系统更好。为了降低复杂性,组织应该努力限制数据移动和数据重复,建议构建统一的数据库平台、数据组装框架和分析平台。

   9.弹性

   在大数据和可变工作负载的时代,组织需要一个可伸缩的、弹性的体系结构,以随时适应变化的数据处理需求。许多公司现在纷纷涌向云平台(无论是公共的还是私有的),以最经济的代价获得按需可扩展性。弹性的体系结构使管理员不必精确地校准容量,在必要时限制使用,并不断地过度购买硬件。弹性还产生了许多类型的应用程序和用例,如按需开发和测试环境。

   10.安全

   现代数据架构是一个自由堡垒——也就是说,它为授权用户提供对数据的随时访问,同时阻止黑客和入侵者。它还应遵守隐私条例,包括HIPPA、欧盟的一般数据保护条例等。它通过在采集数据时加密数据、屏蔽个人身份信息(PII)和跟踪数据目录中的所有数据元素(包括它们的沿袭、使用和审计跟踪)来实现这一点。生命周期管理确保每个数据对象都有一个所有者、一个位置和一个废弃计划。

42ac1ede3903127bc17d62f6635cd15e.png

   三、企业对数据架构的八大需求

   以上十个特性是由客户需求和供应商能力的交集形成的。它们代表了一种理想状态,是设计现代数据架构时要追求的目标。以下是企业在进行数据架构设计时的共同需求。

   1.一座桥

   他们想要一座连接旧环境和新环境的桥梁。他们希望利用现有的技能和思维框架(即BI/ETL/DW),同时获得现代数据技术的好处(即无限的可伸缩性、弹性、多结构数据、托管服务)。

   2.云优先

   如今很少有公司愿意运营数据中心,即使它更便宜、更安全。创新发生在云中,而不是在本地,而且它通常比本地数据中心更安全。

   3.流优先

   他们还想要一个“流优先”的架构,为业务用户提供更新鲜的数据和处理不断缩小的批处理窗口。添加传感器和日志数据增加了这一需求的紧迫性。其目标是根据时间敏感性较低的作业的需要对所有事件进行流处理和批处理。

   4.数据湖

   数据领导者喜欢为所有类型的原始分析数据建立一个容器的想法,这些数据可以跨多个数据管道(包括数据仓库)重新使用。反过来,数据管道可以将精炼的数据(即维度、主数据、指标)输入数据湖以供重用。

   5.自助服务

   他们希望业务用户能够“与数据对话”,并在没有IT帮助的情况下创建自己的报表。这需要粒度权限,允许不同类型的用户访问数据架构的不同部分。

   6.数据科学

   数据领导者希望进入“预测分析”的世界,尽管他们承认自己不知道该用它来做什么,也不知道该如何创建一个数据科学团队。他们知道,是时候超越被动的报告和仪表盘世界,进入机器学习的主动世界了。

   7.可伸缩性

   他们想要一种数据架构,这种结构包含所有的数据——关系的、半结构化的、非结构化的、外部的——在摘要和粒度级别上,可以被大量并发用户快速地直接查询。

   8.好的平台

   目前,数据用户都为关键体系结构组件寻找最佳的工具。随着行业的成熟,他们将更倾向于购买单一供应商的一体化数据分析平台。

   9.可移植性

   数据领导者担心被供应商绑架在一个平台上,失去对定价和供应商响应能力的控制。大多数企业希望混合云(即多云)策略。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
1月前
|
消息中间件 存储 缓存
十万订单每秒热点数据架构优化实践深度解析
【11月更文挑战第20天】随着互联网技术的飞速发展,电子商务平台在高峰时段需要处理海量订单,这对系统的性能、稳定性和扩展性提出了极高的要求。尤其是在“双十一”、“618”等大型促销活动中,每秒需要处理数万甚至数十万笔订单,这对系统的热点数据处理能力构成了严峻挑战。本文将深入探讨如何优化架构以应对每秒十万订单级别的热点数据处理,从历史背景、功能点、业务场景、底层原理以及使用Java模拟示例等多个维度进行剖析。
55 8
|
1月前
|
存储 分布式计算 数据挖掘
数据架构 ODPS 是什么?
数据架构 ODPS 是什么?
307 7
|
1月前
|
数据采集 搜索推荐 数据管理
数据架构 CDP 是什么?
数据架构 CDP 是什么?
52 2
|
4月前
|
机器学习/深度学习 数据采集 人工智能
揭秘!47页文档拆解苹果智能,从架构、数据到训练和优化
【8月更文挑战第23天】苹果公司发布了一份47页的研究文档,深入解析了其在智能基础语言模型领域的探索与突破。文档揭示了苹果在此领域的雄厚实力,并分享了其独特的混合架构设计,该设计融合了Transformer与RNN的优势,显著提高了模型处理序列数据的效能与表现力。然而,这种架构也带来了诸如权重平衡与资源消耗等挑战。苹果利用海量、多样的高质量数据集训练模型,但确保数据质量及处理噪声仍需克服。此外,苹果采取了自监督与无监督学习相结合的高效训练策略,以增强模型的泛化与稳健性,但仍需解决预训练任务选择及超参数调优等问题。
160 66
|
3月前
|
存储 搜索推荐 数据库
MarkLogic在微服务架构中的应用:提供服务间通信和数据共享的机制
随着微服务架构的发展,服务间通信和数据共享成为关键挑战。本文介绍MarkLogic数据库在微服务架构中的应用,阐述其多模型支持、索引搜索、事务处理及高可用性等优势,以及如何利用MarkLogic实现数据共享、服务间通信、事件驱动架构和数据分析,提升系统的可伸缩性和可靠性。
56 5
|
2月前
|
存储 大数据 数据处理
洞察未来:数据治理中的数据架构新思维
数据治理中的数据架构新思维对于应对未来挑战、提高数据处理效率、加强数据安全与隐私保护以及促进数据驱动的业务创新具有重要意义。企业需要紧跟时代步伐,不断探索和实践新型数据架构,以洞察未来发展趋势,为企业的长远发展奠定坚实基础。
|
4月前
|
安全 网络安全 数据安全/隐私保护
云原生技术探索:容器化与微服务架构的实践之路网络安全与信息安全:保护数据的关键策略
【8月更文挑战第28天】本文将深入探讨云原生技术的核心概念,包括容器化和微服务架构。我们将通过实际案例和代码示例,展示如何在云平台上实现高效的应用部署和管理。文章不仅提供理论知识,还包含实操指南,帮助开发者理解并应用这些前沿技术。 【8月更文挑战第28天】在数字化时代,网络安全和信息安全是保护个人和企业数据的前线防御。本文将探讨网络安全漏洞的成因、加密技术的应用以及提升安全意识的重要性。文章旨在通过分析网络安全的薄弱环节,介绍如何利用加密技术和提高用户警觉性来构建更为坚固的数据保护屏障。
|
4月前
|
存储 监控 安全
大数据架构设计原则:构建高效、可扩展与安全的数据生态系统
【8月更文挑战第23天】大数据架构设计是一个复杂而系统的工程,需要综合考虑业务需求、技术选型、安全合规等多个方面。遵循上述设计原则,可以帮助企业构建出既高效又安全的大数据生态系统,为业务创新和决策支持提供强有力的支撑。随着技术的不断发展和业务需求的不断变化,持续优化和调整大数据架构也将成为一项持续的工作。
|
4月前
|
Java 数据库连接 微服务
揭秘微服务架构下的数据魔方:Hibernate如何玩转分布式持久化,实现秒级响应的秘密武器?
【8月更文挑战第31天】微服务架构通过将系统拆分成独立服务,提升了可维护性和扩展性,但也带来了数据一致性和事务管理等挑战。Hibernate 作为强大的 ORM 工具,在微服务中发挥关键作用,通过二级缓存和分布式事务支持,简化了对象关系映射,并提供了有效的持久化策略。其二级缓存机制减少数据库访问,提升性能;支持 JTA 保证跨服务事务一致性;乐观锁机制解决并发数据冲突。合理配置 Hibernate 可助力构建高效稳定的分布式系统。
76 0
|
4月前
|
存储 缓存 Java
Android项目架构设计问题之优化业务接口数据的加载效率如何解决
Android项目架构设计问题之优化业务接口数据的加载效率如何解决
51 0