探讨企业数据架构战略和数据湖的可能性和必要性

简介:

现今的企业数据架构战略,必须解决如何将现有的数据系统与日益增长的信息需求,性能和数据源相匹配。

现今的CIO们,在整合企业数据架构 中日益增长的各方面需求时,面临着两大挑战。首先,是将现有的支持运行应用程序的数据系统, 与分析师和数据科学家越来越多的信息需求之间相匹配。其次,是管理持续不断的,创新的数据管理功能 (比如Hadoop或NoSQL)在企业内部的集成。CIO的职责就是完成这一数据集成,提高数据的可访问性,同时降低系统的整体复杂性。

然 而,大多数企业的数据架构,随着时间的推移,通常在缺少预定义的数据架构战略的情况下,自我进化。相应地,这些企业在能够使用统一的方法访问企业数据资产 方面,遇到不断增加的复杂性问题。随着数据管理创新的速度加快,新技术如Hadoop,NoSQL和图形数据库正在计划和引入,也增加了数据使用者对于数 据领域复杂性的担忧。

数据湖领域

比较突出的一个例子就是数据湖概念的出现,根据定 义,“数据湖是指一个大型的基于对象的存储库,以数据的原始格式保存数据,直到它需要被使用时。” 数据湖基本上是一个数据存储平台,使企业能够收集各种数据集,用数据的原始格式进行存储,并让不同的数据使用者可以访问这些数据集,使他们能够根据各自的 业务目的使用这些数据。 数据湖的好处之一,就是为共享数据提供了单一存储库,从而降低数据复制,避免数据不一致和增加成本。

和传统的数 据采集和数据获取方法相比,数据湖从根本上采取了不同的方法。传统方法旨在使数据符合预定义的数据模型, 从而创建一个统一的数据资产,让所有的数据使用者共享。将数据规范定义到单一格式,这种方法,称为schema-on-write,可以限制下游使用者分 析数据的方式。在数据湖中存储数据的方式则被称为schema-on-read,意为没有预定义的数据存储方式的限制,而是由使用者根据各自的需求,定义 访问数据的方式。

数据湖带来了一些挑战,尤其是对于那些习惯使用自己的数据集副本进行报告和分析的下游数据使用者。首先,必须有一种方便获取数据湖中数据的方式,其次,必须有一个方法配置被访问的数据,以一种用户习惯的模型呈现。

在数据架构战略中使用虚拟化工具

新的企业数据架构战略所面临的这些挑战,都可以通过使用数据虚拟化工具得以解决。数据虚拟化和联邦工具在一组数据源和不同的数据使用者之间提供了一个抽象 层。 面向数据的工具被称为数据联邦。 这种技术提供了访问各种数据源类型的方案,包括大多数关系数据库系统,前代存储系统(比如,flat files,VSAM文件和其他主机存储方式),以及各类新兴技术,如Hadoop和NoSQL。数据联邦工具使应用程序能够透明地查询分布在多个存储平 台的数据,同时隐藏数据源位置,或数据格式的详细信息。而面向使用者的工具通常被称为数据虚拟化。这一技术允许数据使用者定义逻辑语义数据模型,然后映射 到每个联邦数据源的模型。这一语义模型提供了抽象层,简化了数据使用者的可访问性。用户对语义模型的查询被转换为每个联邦数据源的一系列自定义查询集。 当这些查询的结果集返回到数据虚拟化工具时,这些中间结果会被收集,整理和配置成一个最终的结果集返回给用户。实际上,数据虚拟化工具通过面向使用者的数 据实体化规则,简化了将来自多个源的数据相融合的技术。

在定义语义模型中使用数据虚拟化工具,解决了访问数据湖中数据的两大问题。对数据 湖的数据进行联邦访问,不需要用户改写他们的应用程序,从而包含从数据湖读取数据的代码,同时降低了数据复制的需求。现有的应用程序可以连接语义模型,使 数据源对于使用者的应用程序变得透明。同时,数据虚拟化会隐藏schema-on-read的复杂性,使每个用户都能够将特定的数据规范化和数据转换规则 应用于数据,从而适用于每个应用程序。

数据虚拟化和数据联邦是支持企业数据架构战略(包括大数据)的桥接技术。这些工具降低了开发和运营 的成本,通过(低成本)数据湖的使用,降低复制数据集的存储需求。它们还为大多数平台提供了一个无缝的可访问性,随着新技术的不断采用,延伸了传统平台的 生命周期。 数据虚拟化工具,通过使用内部软件的缓存,查询最优化,流水线数据流,和压缩存储,从而简化了环境数据的可访问性,避免了显著的性能退化。这些工具还为引 入从大量快速兴起的数据源中提取和分析信息的创新技术铺平了道路。

原文发布时间为:2015年9月15日
本文来自云栖社区合作伙伴至顶网,了解相关信息可以关注至顶网。
目录
打赏
0
0
0
0
101
分享
相关文章
深入理解云原生架构及其在现代企业中的应用
随着数字化转型的浪潮席卷全球,企业正面临着前所未有的挑战与机遇。云计算技术的迅猛发展,特别是云原生架构的兴起,正在重塑企业的IT基础设施和软件开发模式。本文将深入探讨云原生的核心概念、关键技术以及如何在企业中实施云原生策略,以实现更高效的资源利用和更快的市场响应速度。通过分析云原生架构的优势和面临的挑战,我们将揭示它如何助力企业在激烈的市场竞争中保持领先地位。
深度用云——释放企业潜能 | 网络先行——阿里云网络卓越架构白皮书正式发布
深度用云——释放企业潜能 | 网络先行——阿里云网络卓越架构白皮书正式发布
【上云基础系列-02】企业推荐!必学必会的上云标准架构(弹性架构)
本文介绍上云标准弹性架构,针对企业业务发展需求,推荐使用多服务器的弹性架构而非单体架构。方案包含负载均衡、NAT网关、云服务器ECS、云数据库RDS等组件,确保业务的负载分担、冗余备份及平滑扩展。通过统一公网暴露面管理和VPC网络设计,保障架构的稳定性、安全性和可扩展性。该架构适用于中小企业上云,避免性能瓶颈和迭代升级困难,支持业务持续发展。更多内容可参考下方演进说明总览。
为什么企业需要开展架构治理?
随着数字化转型加速,企业面临的技术和业务环境日益复杂,传统架构难以应对快速变化的需求。企业架构治理成为数字化转型的关键,通过确保技术与战略对接、优化资源利用、降低风险和复杂性,提升企业灵活性、效率和创新能力,支持快速响应市场变化,推动数字化转型成功。
190 7
为什么企业需要开展架构治理?
如何通过建模工具实现企业架构治理全流程管理
企业架构治理工具通过构建统一的架构语言、可视化建模、流程管理、资源整合和多场景分析,实现企业架构的全生命周期管理。该工具赋能企业数字化转型,确保业务、平台、数据及技术相互耦合闭环,提供从规划到决策的一站式服务,助力提升业务运营、优化组织管理和加速数字化建设。
60 2
如何通过建模工具实现企业架构治理全流程管理
云卓越架构:企业稳定性架构体系和AI业务场景探秘
本次分享由阿里云智能集团公共云技术服务部上海零售技术服务高级经理路志华主讲,主题为“云卓越架构:企业稳定性架构体系和AI业务场景探秘”。内容涵盖四个部分:1) 稳定性架构设计,强调高可用、可扩展性、安全性和可维护性;2) 稳定性保障体系和应急体系的建立,确保快速响应和恢复;3) 重大活动时的稳定重宝策略,如大促或新业务上线;4) AI在企业中的应用场景,包括智能编码、知识库问答、创意广告生成等。通过这些内容,帮助企业在云计算环境中构建更加稳定和高效的架构,并探索AI技术带来的创新机会。
企业架构(EA)项目开发综合指南
企业架构(EA)是一种全面的方法,用于对齐企业的业务目标与其 IT 战略和资源。EA 涵盖了企业的各个层面,包括业务流程、信息流、应用系统和技术基础设施。本指南将详细探讨 EA 项目开发的关键步骤、[EA](https://www.visual-paradigm.com/features/enterprise-architecture-diagram-tool/) 与 TOGAF、ArchiMate 以及其他建模图(如 BPMN 和 UML)之间的关系,以及推荐 Visual Paradigm 作为 EA 团队的最佳解决方案。
87 3
引领企业未来数字基础架构浪潮,中国铁塔探索超大规模分布式算力
引领企业未来数字基础架构浪潮,中国铁塔探索超大规模分布式算力
企业业务上云经典架构方案整体介绍
本次课程由阿里云产品经理晋侨分享,主题为企业业务上云经典架构。内容涵盖用户业务架构现状及挑战、阿里云业务托管经典架构设计、方案涉及的产品选型配置,以及业务初期如何低门槛使用。课程详细介绍了企业业务上云的全流程,帮助用户实现高可用、稳定、可扩展的云架构。
云原生架构:重塑企业IT的未来####
本文深入探讨了云原生架构的兴起背景、核心理念、技术优势以及在现代企业IT系统中的应用实践。云原生架构以其高度的灵活性、可扩展性和敏捷性,正逐步成为企业数字化转型的关键驱动力。通过容器化、微服务、持续集成/持续部署(CI/CD)等关键技术,云原生架构能够加速软件开发周期,提升系统稳定性和运维效率,为企业带来前所未有的商业价值。 ####
83 0

热门文章

最新文章

AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等