数据是一件大事,几乎所有行业都在竞相利用数据获取更多利润。商界领袖想知道如何在不被淹没的情况下潜入大数据池。为了充分利用大数据,理解现代数据架构的关键特性,以及该架构如何将原始数据转化为可靠的、可操作的见解,是很有帮助的。了解什么是数据架构师以及他们如何使数据有用也是很有帮助的。
一 什么是数据架构
数据架构是对组织如何收集、存储、转换、分发和使用数据进行标准化的过程。目标是在需要的时候将相关数据传递给需要的人,并帮助他们理解这些数据。
几十年来,如果业务专家想要数据,他们会向IT部门请求,IT部门会创建一个系统来交付数据。这种冗长乏味、耗时的过程往往会产生出出乎意料或需要的结果。在这种环境中,业务策略受到在正确时间访问正确数据的困难的限制。来自内部和外部的实时数据的可用性和增长促使业务策略师要求从数据中获得更多、更快的洞察力。现代数据体系结构设计的承诺是,一个设计良好的流程将业务战略家和技术专家放在一起。他们可以一起决定需要哪些数据来推动业务向前发展,如何获取这些数据,以及如何分发这些数据来为决策者提供可操作的信息。
二 什么是数据架构师
数据架构师是数据架构的策划者,将不同业务单元的业务需求转换为数据和系统需求。从业务需求和目标开始,数据架构师创建技术路线图以满足这些目标,为数据流和处理创建蓝图,存储和分发来自多个源的数据给需要的人。
数据架构师是首席协作者,他围绕组织的目标协调跨多个部门、业务伙伴和外部供应商的内部涉众,以定义数据策略。他们是这样做的:
•通过将业务需求转换为技术需求来定义数据愿景,技术需求成为内部数据标准和策略的基础。
•定义数据体系结构,包括数据模型、元数据、安全性、参考数据(如产品目录)和主数据(如库存和供应商)的标准。
•定义决策者可以用来创建和改进数据系统的结构。
•定义控制组织的哪些部分生成数据、哪些部分使用数据以及如何管理数据流。
三 成功数据架构的特点
如果数据架构是围绕以下特征构建的,那么它就是“现代的”:
•用户驱动:在过去,数据是静态的,访问是有限的。决策者不一定得到他们想要或需要的数据,而是得到可用的数据。在现代数据体系结构中,业务用户可以自信地定义需求,因为数据架构师可以将数据汇集在一起,并创建解决方案以满足业务目标的方式访问数据。
•建立在共享数据之上:有效的数据架构建立在协作的数据结构之上。好的数据体系结构通过将来自组织所有部分的数据以及所需的外部源的数据组合到一个地方来消除相同数据的冲突版本,从而消除竖井。在这种环境中,数据不会在业务单位之间交换或储存,而是被视为共享的、全公司范围的资产。
•自动化:自动化消除了遗留数据系统配置繁琐的过程。现在,使用基于云的工具,几个月构建的流程可以在几个小时或几天内完成。如果用户想要访问不同的数据,自动化使架构师能够快速设计管道来交付数据。随着新数据的来源,数据架构师可以快速地将其集成到体系结构中。
•由人工智能驱动:智能数据架构将自动化提升到一个新的水平,使用机器学习(ML)和人工智能(AI)来调整、警报和建议新情况的解决方案。ML和AI可以识别数据类型,识别和修复数据质量错误,为传入数据创建结构,识别新见解的关系,并推荐相关数据集和分析。
•弹性:弹性允许公司根据需要扩大或缩小规模。弹性允许管理员专注于故障排除和问题解决,而不是严格的容量校准或过度购买硬件以满足需求。云存储是最好的选择,因为它允许按需快速和经济的可伸缩性。
•简单:在高效的数据架构中,简单胜过复杂。你需要一只表演犬还是一匹苦力马?在数据移动、数据平台、数据组装框架和分析平台中力求简单。
•安全性:安全性内置在现代数据体系结构中,确保数据按照业务定义的需要知道的基础上是可用的。良好的数据架构还能识别现有的和正在出现的数据安全威胁,并确保法规符合HIPAA和GDPR等法规。
四 数据架构与信息架构
数据体系结构是将原始数据转换为可共享的格式,而信息体系结构是将数据转换为业务智能的过程。只有当数据被组合、关联和分析时,信息体系结构才开始显现出来。如果说数据体系结构是发电厂,那么信息体系结构就是照明装置。
昨天的销售数据本身并不能告诉你太多信息,但如果把它放在历史背景下,并与成本和客户保留率相比较,你不仅可以看到这些数据是如何随时间变化的,还可以了解数据随时间变化的原因。
例如,作为一名营销主管,你想知道最近的销售上升是因为升职还是只是巧合。这是与之无关的需求激增吗?或者是一个紧张的销售团队在努力实现销售指标?促销真的很成功吗?信息体系结构提供了经理和执行人员需要对下一步行动做出决定的深刻见解,比如是否转向新的东西或按照当前计划前进。
五 三个入门的最佳实践
在开发数据架构策略时,业务负责人应该将以下考虑放在首位:
•协作驱动着这个过程。良好的数据体系结构确保组织的业务和IT方面在共享的目标和结果上进行协作。决策者定义哪些数据将具有最高的业务影响,数据架构师构建获取该数据并使其可访问的路径。
•优先考虑数据治理。数据必须是高质量的、高相关性的,并且针对特定的业务需求。让你的内部专家作为数据管理员来验证和清理组织数据。建立一个能够提高所有人数据质量的管理人员社区。
•适应性使敏捷成为可能。最好不要拘泥于特定的技术或解决方案。随着新技术进入市场,体系结构应该能够适应并适应它。数据类型可以改变,工具和平台也可以改变。因此,良好的数据架构必须能够适应这些不可避免的变化。
六 成功数据架构考虑的要素
在大数据和数据科学的新时代,企业拥有一个与业务流程一致的集中式数据架构至关重要,该架构随着业务增长而扩展,随着技术进步而发展。一个成功的数据体系结构提供关于数据的每个方面的清晰性,这使数据科学家能够有效地使用可靠的数据并解决复杂的业务问题。它还使组织能够通过利用新兴技术快速利用新的业务机会,并通过管理整个企业的复杂数据和信息交付来提高运营效率。
与信息体系结构、系统体系结构和软件体系结构相比,数据体系结构相对较新。数据架构师的角色也很模糊,主要由高级业务分析师、ETL开发人员和数据科学家承担。尽管如此,我将使用Data Architect来指代那些为组织设计数据架构的数据管理专业人员。
当谈到建筑时,我们经常想到建筑的类比。传统的建筑师计划、设计和审查建筑的建造。设计过程包括与客户一起充分收集需求,了解场地的法律和环境限制,并与工程师、测量师和其他专家一起工作,以确保设计是现实的,并在预算之内。这项工作的复杂性确实非常类似于数据架构师的角色。然而,这两个架构师角色之间有一些基本的区别:
•构建体系结构是自顶向下设计的,而数据体系结构通常是可能已经存在的组件或系统的集成过程。
•建筑架构师在建造建筑之前必须了解完整的需求并定义整个范围。数据体系结构的范围可以很广,并且很容易更改。因此,一个成功的数据体系结构应该设计得灵活,能够预测未来的变化。
•建筑建筑师有精确的教育和职业要求,应该在商业、艺术、结构物理和建筑材料方面拥有深入的知识。另一方面,大多数数据架构师都有IT背景,在少数公司或行业有专业经验,对业务的了解有限。因此,他们应该意识到他们的设计可能是有偏差的,他们需要根据来自组织中的业务和技术专家的反馈来调整它。
•建筑设计几乎总是针对从头开始建造的新建筑。因此,建筑建筑师可以完全根据新的要求和新材料进行规划和设计。数据架构师没有这种奢侈。他们很少能从零开始,但在为未来设计时需要了解现有的平台和数据库。
考虑到所有这些差异,数据架构师仍然可以向构建架构师学习,特别是采用自顶向下的方法来改进数据架构设计。在许多组织中,缺乏系统的、集中的、端到端的数据架构设计。以下列举了一些主要原因:
•一个公司有多个IT部门,他们在各自的数据标准和体系结构中工作。
•应用程序和流程是基于单个业务需求构建的,不需要遵循数据体系结构标准。
•数据架构师的角色只关注有限的技术领域,并拥有有限的关于数据的业务知识。
•IT项目的管理没有将数据架构作为设计阶段的一部分考虑;科学家和工程师没有统一的数据管理流程来编写代码。
由于这些不足,我们经常看到公司的数据系统脱节,团队和部门之间存在差距。这种差异导致系统的性能很差,有很多的交接,出现生产数据问题时需要很长时间进行故障排除,缺乏跨系统达成正确解决方案的责任,以及缺乏评估变更影响的能力。最后,当迁移或重新设计到下一代平台时,脱节的系统可能会导致大量的分析和研究工作。
考虑到所有这些,一个成功的企业需要有一个基于业务流程和操作设计的自顶向下一致的数据体系结构。特别是,与构建架构师一样,企业数据架构师需要首先在概念和逻辑层面构建蓝图,然后再将技术应用到详细的应用程序设计和实现中。
1. 基于业务流程和操作的概念级数据体系结构设计
在现代IT中,应用于数据的数据实体、数据流和业务规则支持和驱动业务流程。因此,数据架构师需要有深入的业务知识,包括金融、市场营销、产品和特定于行业的业务流程(如健康、保险、制造商和零售商)的专业知识。然后,他或她可以通过设计表示每个业务领域的数据实体和分类法,以及业务流程下面的数据流,在企业级正确地构建数据蓝图。特别是,在这个概念阶段需要考虑和规划下列领域:
•核心数据实体和数据元素,如关于客户、产品、销售的数据实体和数据元素。
•客户和客户需要的输出数据。
•要收集、转换或引用以产生输出数据的源数据。
•每个数据实体的所有权,以及应该如何基于业务用例使用和分发它。
•应用于每个数据实体的安全策略。•数据实体之间的关系,例如引用完整性、业务规则、执行顺序。
•标准的数据分类和分类。
•数据质量、操作和服务水平协议(sla)的标准。
这个概念设计级别由支持每个业务功能的底层数据实体组成。蓝图对于成功设计和实现企业和系统架构及其未来的扩展或升级至关重要。在许多组织中,这种概念设计通常嵌入到由单个项目驱动的业务分析中,而没有从企业端到端解决方案和标准的角度提供指导。
2. 逻辑级数据架构设计通过考虑使用哪种类型的数据库或数据格式,这种设计级别有时被称为数据建模。它将业务需求与底层技术平台和系统连接起来。然而,大多数组织只在特定的数据库或系统中设计数据建模,因为数据建模师的角色是竖井式的。通过考虑适用于每个数据库或系统的标准,以及这些数据系统之间的数据流,一个成功的数据架构应该采用集成的方法开发。特别是需要协同设计以下5个领域:
(1)命名约定和数据完整性
数据实体和元素的命名约定应该一致地应用于每个数据库。此外,如果相同的数据必须驻留在多个数据库中,则应该加强数据源及其引用之间的完整性。最终,这些数据元素应该属于数据体系结构中的概念设计中的数据实体,然后可以根据业务需求对其进行协同和准确的更新或修改。
(2)数据归档/保留政策
数据归档和保留策略通常在生产的每个后期阶段才考虑或建立,这导致了资源浪费、不同数据库之间的数据状态不一致以及数据查询和更新的性能差。为了加强数据完整性,数据架构师应该基于Operational标准在数据体系结构中定义数据归档和保留策略。
(3)隐私和安全信息
隐私和安全成为逻辑数据库设计的一个重要方面。虽然概念设计已经定义了哪些数据组件是敏感信息,但逻辑设计应该在数据库中保护机密信息,限制访问、限制数据复制、特定的数据类型和安全的数据流来保护这些信息。
(4)数据复制
对于以下三个目标,数据复制是需要考虑的关键方面:1)高可用性;2)性能,避免数据在网络上传输的性能;3)解耦,尽量减少对下游的影响。但是,过多的数据复制会导致混乱、数据质量差和性能差。任何数据复制都应该由数据架构师检查,并根据原则和规程应用。
(5)数据流和管道
数据如何在不同的数据库系统和应用程序之间流动应该在这个级别上明确定义。同样,此流与业务流程和数据架构师概念级中所示的流一致。此外,应该在逻辑设计的集成视图中考虑数据摄入的频率、管道中的数据转换以及针对输出数据的数据访问模式。例如,如果上游数据源是实时的,而下游系统主要用于对索引量大的聚合信息的数据访问(例如,频繁更新和插入的代价高),则需要在这两者之间设计数据管道来优化性能。
3.数据治理是数据架构持续成功的关键
由于数据体系结构反映并支持业务流程和流,因此一旦业务流程发生更改,它就会发生更改。随着底层数据库系统的改变,数据体系结构也需要调整。因此,数据体系结构不是静态的,而是需要持续管理、增强和审计的。因此,应该采用数据治理,以确保在启动每个新项目时正确设计和实现企业数据架构。七 小结
在一个成功的数据架构中,基于业务流程的概念设计是最关键的元素,其次是强调所有数据库和数据管道的一致性、完整性和效率的逻辑设计。一旦建立了数据体系结构,组织就可以看到哪些数据驻留在何处,并确保数据的安全、有效存储和准确处理。此外,当一个数据库或组件发生更改时,数据体系结构可以让组织快速评估影响,并指导所有相关团队进行设计和实现。最后,数据体系结构是企业系统的实时文档,保证是最新的,并提供清晰的端到端视图。总而言之,反映端到端业务流程和操作的整体数据体系结构对于公司在经历重大变化(如收购、数字化转型或迁移到新平台)时快速有效地推进至关重要。