探讨企业数据架构战略和数据湖的可能性和必要性

简介:

现今的企业数据架构战略,必须解决如何将现有的数据系统与日益增长的信息需求,性能和数据源相匹配。

现今的CIO们,在整合企业数据架构 中日益增长的各方面需求时,面临着两大挑战。首先,是将现有的支持运行应用程序的数据系统, 与分析师和数据科学家越来越多的信息需求之间相匹配。其次,是管理持续不断的,创新的数据管理功能 (比如Hadoop或NoSQL)在企业内部的集成。CIO的职责就是完成这一数据集成,提高数据的可访问性,同时降低系统的整体复杂性。

然 而,大多数企业的数据架构,随着时间的推移,通常在缺少预定义的数据架构战略的情况下,自我进化。相应地,这些企业在能够使用统一的方法访问企业数据资产 方面,遇到不断增加的复杂性问题。随着数据管理创新的速度加快,新技术如Hadoop,NoSQL和图形数据库正在计划和引入,也增加了数据使用者对于数 据领域复杂性的担忧。

数据湖领域

比较突出的一个例子就是数据湖概念的出现,根据定 义,“数据湖是指一个大型的基于对象的存储库,以数据的原始格式保存数据,直到它需要被使用时。” 数据湖基本上是一个数据存储平台,使企业能够收集各种数据集,用数据的原始格式进行存储,并让不同的数据使用者可以访问这些数据集,使他们能够根据各自的 业务目的使用这些数据。 数据湖的好处之一,就是为共享数据提供了单一存储库,从而降低数据复制,避免数据不一致和增加成本。

和传统的数 据采集和数据获取方法相比,数据湖从根本上采取了不同的方法。传统方法旨在使数据符合预定义的数据模型, 从而创建一个统一的数据资产,让所有的数据使用者共享。将数据规范定义到单一格式,这种方法,称为schema-on-write,可以限制下游使用者分 析数据的方式。在数据湖中存储数据的方式则被称为schema-on-read,意为没有预定义的数据存储方式的限制,而是由使用者根据各自的需求,定义 访问数据的方式。

数据湖带来了一些挑战,尤其是对于那些习惯使用自己的数据集副本进行报告和分析的下游数据使用者。首先,必须有一种方便获取数据湖中数据的方式,其次,必须有一个方法配置被访问的数据,以一种用户习惯的模型呈现。

在数据架构战略中使用虚拟化工具

新的企业数据架构战略所面临的这些挑战,都可以通过使用数据虚拟化工具得以解决。数据虚拟化和联邦工具在一组数据源和不同的数据使用者之间提供了一个抽象 层。 面向数据的工具被称为数据联邦。 这种技术提供了访问各种数据源类型的方案,包括大多数关系数据库系统,前代存储系统(比如,flat files,VSAM文件和其他主机存储方式),以及各类新兴技术,如Hadoop和NoSQL。数据联邦工具使应用程序能够透明地查询分布在多个存储平 台的数据,同时隐藏数据源位置,或数据格式的详细信息。而面向使用者的工具通常被称为数据虚拟化。这一技术允许数据使用者定义逻辑语义数据模型,然后映射 到每个联邦数据源的模型。这一语义模型提供了抽象层,简化了数据使用者的可访问性。用户对语义模型的查询被转换为每个联邦数据源的一系列自定义查询集。 当这些查询的结果集返回到数据虚拟化工具时,这些中间结果会被收集,整理和配置成一个最终的结果集返回给用户。实际上,数据虚拟化工具通过面向使用者的数 据实体化规则,简化了将来自多个源的数据相融合的技术。

在定义语义模型中使用数据虚拟化工具,解决了访问数据湖中数据的两大问题。对数据 湖的数据进行联邦访问,不需要用户改写他们的应用程序,从而包含从数据湖读取数据的代码,同时降低了数据复制的需求。现有的应用程序可以连接语义模型,使 数据源对于使用者的应用程序变得透明。同时,数据虚拟化会隐藏schema-on-read的复杂性,使每个用户都能够将特定的数据规范化和数据转换规则 应用于数据,从而适用于每个应用程序。

数据虚拟化和数据联邦是支持企业数据架构战略(包括大数据)的桥接技术。这些工具降低了开发和运营 的成本,通过(低成本)数据湖的使用,降低复制数据集的存储需求。它们还为大多数平台提供了一个无缝的可访问性,随着新技术的不断采用,延伸了传统平台的 生命周期。 数据虚拟化工具,通过使用内部软件的缓存,查询最优化,流水线数据流,和压缩存储,从而简化了环境数据的可访问性,避免了显著的性能退化。这些工具还为引 入从大量快速兴起的数据源中提取和分析信息的创新技术铺平了道路。

原文发布时间为:2015年9月15日
本文来自云栖社区合作伙伴至顶网,了解相关信息可以关注至顶网。
目录
相关文章
|
1月前
|
Cloud Native Devops 持续交付
构建未来:云原生架构在现代企业中的应用与挑战
【2月更文挑战第31天】 随着数字化转型的加速,云原生技术已经成为推动企业IT架构现代化的关键力量。本文深入探讨了云原生架构的核心组件、实施策略以及面临的主要挑战。通过分析容器化、微服务、DevOps和持续集成/持续部署(CI/CD)等关键技术,揭示了如何利用这些技术实现敏捷性、可扩展性和弹性。同时,文章还讨论了企业在采纳云原生实践中可能遇到的安全性、复杂性和文化适应性问题,并提供了解决这些问题的策略和建议。
|
2月前
|
存储 监控 安全
360 企业安全浏览器基于阿里云数据库 SelectDB 版内核 Apache Doris 的数据架构升级实践
为了提供更好的日志数据服务,360 企业安全浏览器设计了统一运维管理平台,并引入 Apache Doris 替代了 Elasticsearch,实现日志检索与报表分析架构的统一,同时依赖 Doris 优异性能,聚合分析效率呈数量级提升、存储成本下降 60%....为日志数据的可视化和价值发挥提供了坚实的基础。
360 企业安全浏览器基于阿里云数据库 SelectDB 版内核 Apache Doris 的数据架构升级实践
|
1月前
|
运维 Cloud Native 持续交付
云原生架构的未来演进:打造灵活、高效的企业IT基础
随着数字化转型的不断深入,企业的IT基础设施正经历着从传统架构向云原生架构的根本转变。本文将探讨云原生技术的最新发展趋势,分析其在提高业务敏捷性、降低运维成本以及促进技术创新方面的关键作用。我们将重点讨论如何借助容器化、微服务、DevOps和持续交付等核心技术,构建一个能够适应快速变化市场需求的云原生生态系统。通过实际案例分析,揭示企业在迁移到云原生架构过程中面临的挑战与解决策略,为读者呈现一幅云原生技术赋能企业未来的蓝图。
|
11月前
|
安全 架构师
【企业架构】什么是 TOGAF? 企业架构方法论
【企业架构】什么是 TOGAF? 企业架构方法论
|
16天前
|
运维 Cloud Native 持续交付
构建未来:云原生架构在现代企业中的应用与挑战
【4月更文挑战第10天】 随着数字化转型的不断深入,企业对信息技术基础设施的要求日益提高。云原生架构作为一种新兴的设计理念和技术集合,以其灵活性、可扩展性和容错性,正在成为推动企业技术革新的关键力量。本文将探讨云原生技术的核心组件、实施策略以及面临的主要挑战,并分析如何通过采纳云原生架构来优化业务流程和提升服务效率。
|
1月前
|
Cloud Native 安全 Devops
构建未来:云原生架构在现代企业中的应用与挑战
【2月更文挑战第30天】 随着数字化转型的深入,企业正迅速采纳云原生技术以适应不断变化的市场环境。本文探讨了云原生架构的关键组成部分,包括容器化、微服务、持续集成/持续部署(CI/CD)和DevOps实践,并分析了它们如何促进企业的敏捷性和可扩展性。同时,文章也识别了企业在采用云原生技术时面临的安全、文化和技术挑战,并提出了相应的解决策略,以帮助企业在云时代保持竞争力。
|
4月前
|
安全 网络架构
对转发路由器TR在企业云上网络架构规划中的使用体验测评
对转发路由器TR在企业云上网络架构规划中的使用体验测评
433 3
|
7月前
|
弹性计算 网络协议 数据库
弹性计算Clouder认证:企业级云上网络构建——课时8:企业网络架构最佳实践
弹性计算Clouder认证:企业级云上网络构建——课时8:企业网络架构最佳实践
104 0
|
9月前
|
Kubernetes Cloud Native 应用服务中间件
对比 5 个开源网关项目,这家 SaaS 企业如何统一网关架构
对比 5 个开源网关项目,这家 SaaS 企业如何统一网关架构
44390 10