谈谈成功数据架构的七大特点和三大关键要素

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 数据是一件大事,几乎所有行业都在竞相利用数据获取更多利润。商界领袖想知道如何在不被淹没的情况下潜入大数据池。

数据是一件大事,几乎所有行业都在竞相利用数据获取更多利润。商界领袖想知道如何在不被淹没的情况下潜入大数据池。为了充分利用大数据,理解现代数据架构的关键特性,以及该架构如何将原始数据转化为可靠的、可操作的见解,是很有帮助的。了解什么是数据架构师以及他们如何使数据有用也是很有帮助的。

一 什么是数据架构

数据架构是对组织如何收集、存储、转换、分发和使用数据进行标准化的过程。目标是在需要的时候将相关数据传递给需要的人,并帮助他们理解这些数据。

几十年来,如果业务专家想要数据,他们会向IT部门请求,IT部门会创建一个系统来交付数据。这种冗长乏味、耗时的过程往往会产生出出乎意料或需要的结果。在这种环境中,业务策略受到在正确时间访问正确数据的困难的限制。来自内部和外部的实时数据的可用性和增长促使业务策略师要求从数据中获得更多、更快的洞察力。现代数据体系结构设计的承诺是,一个设计良好的流程将业务战略家和技术专家放在一起。他们可以一起决定需要哪些数据来推动业务向前发展,如何获取这些数据,以及如何分发这些数据来为决策者提供可操作的信息。

二 什么是数据架构师

数据架构师是数据架构的策划者,将不同业务单元的业务需求转换为数据和系统需求。从业务需求和目标开始,数据架构师创建技术路线图以满足这些目标,为数据流和处理创建蓝图,存储和分发来自多个源的数据给需要的人。

数据架构师是首席协作者,他围绕组织的目标协调跨多个部门、业务伙伴和外部供应商的内部涉众,以定义数据策略。他们是这样做的:

•通过将业务需求转换为技术需求来定义数据愿景,技术需求成为内部数据标准和策略的基础。

•定义数据体系结构,包括数据模型、元数据、安全性、参考数据(如产品目录)和主数据(如库存和供应商)的标准。

•定义决策者可以用来创建和改进数据系统的结构。

•定义控制组织的哪些部分生成数据、哪些部分使用数据以及如何管理数据流。

三 成功数据架构的特点

如果数据架构是围绕以下特征构建的,那么它就是“现代的”:

•用户驱动:在过去,数据是静态的,访问是有限的。决策者不一定得到他们想要或需要的数据,而是得到可用的数据。在现代数据体系结构中,业务用户可以自信地定义需求,因为数据架构师可以将数据汇集在一起,并创建解决方案以满足业务目标的方式访问数据。

•建立在共享数据之上:有效的数据架构建立在协作的数据结构之上。好的数据体系结构通过将来自组织所有部分的数据以及所需的外部源的数据组合到一个地方来消除相同数据的冲突版本,从而消除竖井。在这种环境中,数据不会在业务单位之间交换或储存,而是被视为共享的、全公司范围的资产。

•自动化:自动化消除了遗留数据系统配置繁琐的过程。现在,使用基于云的工具,几个月构建的流程可以在几个小时或几天内完成。如果用户想要访问不同的数据,自动化使架构师能够快速设计管道来交付数据。随着新数据的来源,数据架构师可以快速地将其集成到体系结构中。

•由人工智能驱动:智能数据架构将自动化提升到一个新的水平,使用机器学习(ML)和人工智能(AI)来调整、警报和建议新情况的解决方案。ML和AI可以识别数据类型,识别和修复数据质量错误,为传入数据创建结构,识别新见解的关系,并推荐相关数据集和分析。

•弹性:弹性允许公司根据需要扩大或缩小规模。弹性允许管理员专注于故障排除和问题解决,而不是严格的容量校准或过度购买硬件以满足需求。云存储是最好的选择,因为它允许按需快速和经济的可伸缩性。

•简单:在高效的数据架构中,简单胜过复杂。你需要一只表演犬还是一匹苦力马?在数据移动、数据平台、数据组装框架和分析平台中力求简单。

•安全性:安全性内置在现代数据体系结构中,确保数据按照业务定义的需要知道的基础上是可用的。良好的数据架构还能识别现有的和正在出现的数据安全威胁,并确保法规符合HIPAA和GDPR等法规。

四 数据架构与信息架构

数据体系结构是将原始数据转换为可共享的格式,而信息体系结构是将数据转换为业务智能的过程。只有当数据被组合、关联和分析时,信息体系结构才开始显现出来。如果说数据体系结构是发电厂,那么信息体系结构就是照明装置。

昨天的销售数据本身并不能告诉你太多信息,但如果把它放在历史背景下,并与成本和客户保留率相比较,你不仅可以看到这些数据是如何随时间变化的,还可以了解数据随时间变化的原因。

例如,作为一名营销主管,你想知道最近的销售上升是因为升职还是只是巧合。这是与之无关的需求激增吗?或者是一个紧张的销售团队在努力实现销售指标?促销真的很成功吗?信息体系结构提供了经理和执行人员需要对下一步行动做出决定的深刻见解,比如是否转向新的东西或按照当前计划前进。

五 三个入门的最佳实践

在开发数据架构策略时,业务负责人应该将以下考虑放在首位:

•协作驱动着这个过程。良好的数据体系结构确保组织的业务和IT方面在共享的目标和结果上进行协作。决策者定义哪些数据将具有最高的业务影响,数据架构师构建获取该数据并使其可访问的路径。

•优先考虑数据治理。数据必须是高质量的、高相关性的,并且针对特定的业务需求。让你的内部专家作为数据管理员来验证和清理组织数据。建立一个能够提高所有人数据质量的管理人员社区。

•适应性使敏捷成为可能。最好不要拘泥于特定的技术或解决方案。随着新技术进入市场,体系结构应该能够适应并适应它。数据类型可以改变,工具和平台也可以改变。因此,良好的数据架构必须能够适应这些不可避免的变化。

六 成功数据架构考虑的要素

在大数据和数据科学的新时代,企业拥有一个与业务流程一致的集中式数据架构至关重要,该架构随着业务增长而扩展,随着技术进步而发展。一个成功的数据体系结构提供关于数据的每个方面的清晰性,这使数据科学家能够有效地使用可靠的数据并解决复杂的业务问题。它还使组织能够通过利用新兴技术快速利用新的业务机会,并通过管理整个企业的复杂数据和信息交付来提高运营效率。

与信息体系结构、系统体系结构和软件体系结构相比,数据体系结构相对较新。数据架构师的角色也很模糊,主要由高级业务分析师、ETL开发人员和数据科学家承担。尽管如此,我将使用Data Architect来指代那些为组织设计数据架构的数据管理专业人员。

当谈到建筑时,我们经常想到建筑的类比。传统的建筑师计划、设计和审查建筑的建造。设计过程包括与客户一起充分收集需求,了解场地的法律和环境限制,并与工程师、测量师和其他专家一起工作,以确保设计是现实的,并在预算之内。这项工作的复杂性确实非常类似于数据架构师的角色。然而,这两个架构师角色之间有一些基本的区别:

•构建体系结构是自顶向下设计的,而数据体系结构通常是可能已经存在的组件或系统的集成过程。

•建筑架构师在建造建筑之前必须了解完整的需求并定义整个范围。数据体系结构的范围可以很广,并且很容易更改。因此,一个成功的数据体系结构应该设计得灵活,能够预测未来的变化。

•建筑建筑师有精确的教育和职业要求,应该在商业、艺术、结构物理和建筑材料方面拥有深入的知识。另一方面,大多数数据架构师都有IT背景,在少数公司或行业有专业经验,对业务的了解有限。因此,他们应该意识到他们的设计可能是有偏差的,他们需要根据来自组织中的业务和技术专家的反馈来调整它。

•建筑设计几乎总是针对从头开始建造的新建筑。因此,建筑建筑师可以完全根据新的要求和新材料进行规划和设计。数据架构师没有这种奢侈。他们很少能从零开始,但在为未来设计时需要了解现有的平台和数据库。

考虑到所有这些差异,数据架构师仍然可以向构建架构师学习,特别是采用自顶向下的方法来改进数据架构设计。在许多组织中,缺乏系统的、集中的、端到端的数据架构设计。以下列举了一些主要原因:

•一个公司有多个IT部门,他们在各自的数据标准和体系结构中工作。

•应用程序和流程是基于单个业务需求构建的,不需要遵循数据体系结构标准。

•数据架构师的角色只关注有限的技术领域,并拥有有限的关于数据的业务知识。

•IT项目的管理没有将数据架构作为设计阶段的一部分考虑;科学家和工程师没有统一的数据管理流程来编写代码。

由于这些不足,我们经常看到公司的数据系统脱节,团队和部门之间存在差距。这种差异导致系统的性能很差,有很多的交接,出现生产数据问题时需要很长时间进行故障排除,缺乏跨系统达成正确解决方案的责任,以及缺乏评估变更影响的能力。最后,当迁移或重新设计到下一代平台时,脱节的系统可能会导致大量的分析和研究工作。

考虑到所有这些,一个成功的企业需要有一个基于业务流程和操作设计的自顶向下一致的数据体系结构。特别是,与构建架构师一样,企业数据架构师需要首先在概念和逻辑层面构建蓝图,然后再将技术应用到详细的应用程序设计和实现中。

1. 基于业务流程和操作的概念级数据体系结构设计

在现代IT中,应用于数据的数据实体、数据流和业务规则支持和驱动业务流程。因此,数据架构师需要有深入的业务知识,包括金融、市场营销、产品和特定于行业的业务流程(如健康、保险、制造商和零售商)的专业知识。然后,他或她可以通过设计表示每个业务领域的数据实体和分类法,以及业务流程下面的数据流,在企业级正确地构建数据蓝图。特别是,在这个概念阶段需要考虑和规划下列领域:

•核心数据实体和数据元素,如关于客户、产品、销售的数据实体和数据元素。

•客户和客户需要的输出数据。

•要收集、转换或引用以产生输出数据的源数据。

•每个数据实体的所有权,以及应该如何基于业务用例使用和分发它。

•应用于每个数据实体的安全策略。•数据实体之间的关系,例如引用完整性、业务规则、执行顺序。

•标准的数据分类和分类。

•数据质量、操作和服务水平协议(sla)的标准。

这个概念设计级别由支持每个业务功能的底层数据实体组成。蓝图对于成功设计和实现企业和系统架构及其未来的扩展或升级至关重要。在许多组织中,这种概念设计通常嵌入到由单个项目驱动的业务分析中,而没有从企业端到端解决方案和标准的角度提供指导。

2. 逻辑级数据架构设计通过考虑使用哪种类型的数据库或数据格式,这种设计级别有时被称为数据建模。它将业务需求与底层技术平台和系统连接起来。然而,大多数组织只在特定的数据库或系统中设计数据建模,因为数据建模师的角色是竖井式的。通过考虑适用于每个数据库或系统的标准,以及这些数据系统之间的数据流,一个成功的数据架构应该采用集成的方法开发。特别是需要协同设计以下5个领域:

(1)命名约定和数据完整性

数据实体和元素的命名约定应该一致地应用于每个数据库。此外,如果相同的数据必须驻留在多个数据库中,则应该加强数据源及其引用之间的完整性。最终,这些数据元素应该属于数据体系结构中的概念设计中的数据实体,然后可以根据业务需求对其进行协同和准确的更新或修改。

(2)数据归档/保留政策

数据归档和保留策略通常在生产的每个后期阶段才考虑或建立,这导致了资源浪费、不同数据库之间的数据状态不一致以及数据查询和更新的性能差。为了加强数据完整性,数据架构师应该基于Operational标准在数据体系结构中定义数据归档和保留策略。

(3)隐私和安全信息

隐私和安全成为逻辑数据库设计的一个重要方面。虽然概念设计已经定义了哪些数据组件是敏感信息,但逻辑设计应该在数据库中保护机密信息,限制访问、限制数据复制、特定的数据类型和安全的数据流来保护这些信息。

(4)数据复制

对于以下三个目标,数据复制是需要考虑的关键方面:1)高可用性;2)性能,避免数据在网络上传输的性能;3)解耦,尽量减少对下游的影响。但是,过多的数据复制会导致混乱、数据质量差和性能差。任何数据复制都应该由数据架构师检查,并根据原则和规程应用。

(5)数据流和管道

数据如何在不同的数据库系统和应用程序之间流动应该在这个级别上明确定义。同样,此流与业务流程和数据架构师概念级中所示的流一致。此外,应该在逻辑设计的集成视图中考虑数据摄入的频率、管道中的数据转换以及针对输出数据的数据访问模式。例如,如果上游数据源是实时的,而下游系统主要用于对索引量大的聚合信息的数据访问(例如,频繁更新和插入的代价高),则需要在这两者之间设计数据管道来优化性能。

3.数据治理是数据架构持续成功的关键

由于数据体系结构反映并支持业务流程和流,因此一旦业务流程发生更改,它就会发生更改。随着底层数据库系统的改变,数据体系结构也需要调整。因此,数据体系结构不是静态的,而是需要持续管理、增强和审计的。因此,应该采用数据治理,以确保在启动每个新项目时正确设计和实现企业数据架构。七 小结

在一个成功的数据架构中,基于业务流程的概念设计是最关键的元素,其次是强调所有数据库和数据管道的一致性、完整性和效率的逻辑设计。一旦建立了数据体系结构,组织就可以看到哪些数据驻留在何处,并确保数据的安全、有效存储和准确处理。此外,当一个数据库或组件发生更改时,数据体系结构可以让组织快速评估影响,并指导所有相关团队进行设计和实现。最后,数据体系结构是企业系统的实时文档,保证是最新的,并提供清晰的端到端视图。总而言之,反映端到端业务流程和操作的整体数据体系结构对于公司在经历重大变化(如收购、数字化转型或迁移到新平台)时快速有效地推进至关重要。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
1月前
|
消息中间件 存储 缓存
十万订单每秒热点数据架构优化实践深度解析
【11月更文挑战第20天】随着互联网技术的飞速发展,电子商务平台在高峰时段需要处理海量订单,这对系统的性能、稳定性和扩展性提出了极高的要求。尤其是在“双十一”、“618”等大型促销活动中,每秒需要处理数万甚至数十万笔订单,这对系统的热点数据处理能力构成了严峻挑战。本文将深入探讨如何优化架构以应对每秒十万订单级别的热点数据处理,从历史背景、功能点、业务场景、底层原理以及使用Java模拟示例等多个维度进行剖析。
55 8
|
1月前
|
存储 分布式计算 数据挖掘
数据架构 ODPS 是什么?
数据架构 ODPS 是什么?
323 7
|
1月前
|
数据采集 搜索推荐 数据管理
数据架构 CDP 是什么?
数据架构 CDP 是什么?
54 2
|
4月前
|
机器学习/深度学习 数据采集 人工智能
揭秘!47页文档拆解苹果智能,从架构、数据到训练和优化
【8月更文挑战第23天】苹果公司发布了一份47页的研究文档,深入解析了其在智能基础语言模型领域的探索与突破。文档揭示了苹果在此领域的雄厚实力,并分享了其独特的混合架构设计,该设计融合了Transformer与RNN的优势,显著提高了模型处理序列数据的效能与表现力。然而,这种架构也带来了诸如权重平衡与资源消耗等挑战。苹果利用海量、多样的高质量数据集训练模型,但确保数据质量及处理噪声仍需克服。此外,苹果采取了自监督与无监督学习相结合的高效训练策略,以增强模型的泛化与稳健性,但仍需解决预训练任务选择及超参数调优等问题。
160 66
|
3月前
|
运维 负载均衡 监控
深入探索微服务架构的核心要素与实践策略
在当今软件开发领域,微服务架构已成为构建灵活、可扩展企业级应用的首选模式。本文旨在剖析微服务架构的设计理念,通过实例阐述其核心组件如服务注册与发现、配置管理、熔断机制等如何协同工作,以提升系统的敏捷性和维护性。同时,探讨了在实践中应对分布式系统复杂性的最佳策略,包括负载均衡、服务监控和日志聚合等关键技术,旨在为后端开发者提供一套完整的微服务实施指南。
59 2
|
1月前
|
敏捷开发 缓存 中间件
.NET技术的高效开发模式,涵盖面向对象编程、良好架构设计及高效代码编写与管理三大关键要素
本文深入探讨了.NET技术的高效开发模式,涵盖面向对象编程、良好架构设计及高效代码编写与管理三大关键要素,并通过企业级应用和Web应用开发的实践案例,展示了如何在实际项目中应用这些模式,旨在为开发者提供有益的参考和指导。
25 3
|
3月前
|
监控 安全 API
深入探索微服务架构的核心要素与实践策略
在当今软件开发领域,微服务架构以其独特的优势——高度的模块化、灵活性以及可扩展性,已经成为构建复杂、大型应用系统的不二选择。不同于传统的单体架构,它能够显著提升开发效率,促进技术生态的多样化发展。本文将从微服务架构的核心特性出发,探讨其设计理念、关键技术及在实践中的应用策略,旨在为后端开发者提供一份详尽的指南,帮助他们理解和掌握这一现代软件架构的精髓。
36 3
|
3月前
|
存储 搜索推荐 数据库
MarkLogic在微服务架构中的应用:提供服务间通信和数据共享的机制
随着微服务架构的发展,服务间通信和数据共享成为关键挑战。本文介绍MarkLogic数据库在微服务架构中的应用,阐述其多模型支持、索引搜索、事务处理及高可用性等优势,以及如何利用MarkLogic实现数据共享、服务间通信、事件驱动架构和数据分析,提升系统的可伸缩性和可靠性。
56 5
|
2月前
|
存储 大数据 数据处理
洞察未来:数据治理中的数据架构新思维
数据治理中的数据架构新思维对于应对未来挑战、提高数据处理效率、加强数据安全与隐私保护以及促进数据驱动的业务创新具有重要意义。企业需要紧跟时代步伐,不断探索和实践新型数据架构,以洞察未来发展趋势,为企业的长远发展奠定坚实基础。
|
4月前
|
安全 网络安全 数据安全/隐私保护
云原生技术探索:容器化与微服务架构的实践之路网络安全与信息安全:保护数据的关键策略
【8月更文挑战第28天】本文将深入探讨云原生技术的核心概念,包括容器化和微服务架构。我们将通过实际案例和代码示例,展示如何在云平台上实现高效的应用部署和管理。文章不仅提供理论知识,还包含实操指南,帮助开发者理解并应用这些前沿技术。 【8月更文挑战第28天】在数字化时代,网络安全和信息安全是保护个人和企业数据的前线防御。本文将探讨网络安全漏洞的成因、加密技术的应用以及提升安全意识的重要性。文章旨在通过分析网络安全的薄弱环节,介绍如何利用加密技术和提高用户警觉性来构建更为坚固的数据保护屏障。