面向数据架构的云演变

简介: 版权声明:本文为半吊子子全栈工匠(wireless_com,同公众号)原创文章,未经允许不得转载。 https://blog.
版权声明:本文为半吊子子全栈工匠(wireless_com,同公众号)原创文章,未经允许不得转载。 https://blog.csdn.net/wireless_com/article/details/84312868

现代数据架构的概念在过去的10多年里发生了巨大的变化,具体可以参见公众号“补天遗石”的《从数据仓库到数据湖——浅谈数据架构演进》一文。

把时钟调回来,回想一下那些有许多限制的遗留数据架构的日子。 存储是昂贵的,并且有相关的硬件成本。 计算经常涉及服务器和更多的硬件投资。 网络是昂贵的,部署只是在场内,专有软件和硬件都锁定在用户所在的所有企业。

这是一个(对许多组织来说仍然是)的世界,在这个世界上,架构只允许对高度结构化数据进行事后分析。 随着移动和传感器等新数据类型的出现,以及机器学习和数据科学等新的分析出现,这些遗留架构中的弱点就会暴露无遗。 再加上云计算的出现,我们将迎来一场完美的风暴。

许多相互关联的因素打乱了遗留的数据体系结构时代。 储存变得更加便宜,像 Apache Hadoop 这样的软件成为了中心舞台。 计算也走软件路线,我们看到了边缘计算的开始。 网络变得无处不在,为地球提供了3G/4G/LTE连接,部署开始成为混合动力,企业开始使用开源软件。 随着客户需求的改变,这导致了一股创新热潮,影响了供应商现代化数据架构的方向。

云的出现创造了再次进化的需要,以便利用其独特的特性,如脱耦存储和计算。 因此,这导致了相互连接的数据架构,Hadoop 生态系统为 IaaS 和 PaaS 模型和创新进化,用于连接数据中心和公共云中的部署。

由于数据具有"质量",并且是云迅速崛起的原因,数据架构必须再次演变,以满足当今企业的需求,并利用云计算的独特优势。 今天的数据架构需要更多的东西来实现数字转换、实时分析和人工智能的梦想。 这为事先分析和驱动客户360度视图等用例铺平了道路。 组织需要一个统一的混合体系结构,用于室内、多云和边缘环境。 现在是重新设想数据结构的时候了,混合是一个关键的要求。

云模型非常适合于敏捷性开发和高效部署,并能很好地应用于临时工作负载。 该模型提供了一种更可预测的成本结构,适用于长期运行的工作负载。 将"云"带到数据中,无论数据是位于本地还是云端。

640?wx_fmt=png

图1 数据架构的演变

首先,理解驱动开放混合架构的关键原则。

统一管理(跨本地及云)

进行数据传输,部署模型的选择是由用例驱动的,可能需要多个云供应商。 今天,他们在办公场所做分析。 明天,他们想要探索一个运行深度学习工作负载的云提供商。 后天,他们想把一些工作量带回到办公地点,以获得更可预测的成本模式。 人们正在用一个统一的界面,帮助他们进行混合云之旅。 数据分析师、数据工程师、数据科学家正在使用大数据环境,他们也在寻找以人为本的经验。 希望提供一个自助服务用户界面,以便能够隐藏基础设施的复杂性,让用户专注于业务问题。

存储与计算的解耦选择

从大数据、存档数据、备份到多协议访问使用单一统一存储(S3 API,Hadoop API,NFS,iSCSI)。 S3接口提供了在站点和云中应用程序的可移植性。 每个用例具有不同的计算储存比率。 与十年前不同,网络交换机拥有10 Gbps,40 Gbps,100 Gbps 接口,对数据密集型工作负载具有更好的流量控制。 所有这些都导致计算和存储的分离,每个层可以独立地扩展。

很多更喜欢在当地存储某个类别的应用程序,在这种情况下,保持存储和计算在同一服务器中的耦合是有意义的。 考虑到遗留问题,最适合提供一个存储架构,可以扩展到数万亿的文件/对象,提供强大的一致性(不像亚马逊S3)和许多其他的对象存储解决方案,这需要应用程序来构建一个一致性层) ,最重要的是提供了做耦合和去耦合计算和存储的选项。

容器化

大多数用户希望封装隔离和多租赁在一个易于使用的界面。 自定义的容器化应用程序可以应用到集群,能够进入下一个层次——集成自己的组件,如企业数据仓库(EDW)、数据科学和工程平台等。 有很多好处。 在云环境中,可以在几分钟内创建一个按需工作的负载。 在过去,这个过程需要与服务器管理员进行数月的协调,然后建立一个新的集群。 这是云敏捷性的前提,并允许简化到一个共同的体系结构,这样 EDW 解决方案就可以在不需要任何架构检修的情况下运行在前台和云端。

共享安全和治理

可以使用像云一样的敏捷性部署容器化工作负载,需要一个共享和持久的安全和治理层来集中执行访问控制和数据治理。 由于数据是通过 Hadoop 文件系统和云对象存储分布的,希望有一个共同的安全和治理控制。 当数据环境扩展到数百亿的文件和整个组织的共享时,需要有部门级别的安全领域——考虑一个具有自身安全和治理控制的"逻辑"数据湖。

负载敏捷性

这是开放式混合体系结构的终极圣杯。 数据环境的存在,以便各种处理工作负载能够运行,从噪声中获得洞察力或信号,用户可以在他们的组织得到真正的业务转换。 许多工作负载,如 EDW,数据科学和工程平台有不同的发布节奏。这种架构能够轻松地改变独立于底层基础设施的组件的软件修改,避免一个庞大的升级,可以为大数据环境中的数以千计的租户提供一个自我服务角色为中心的用户界面来创建按需工作负载。

所有这些都导致了云和本地一致的混合架构设计。

640?wx_fmt=png

图2 开放式混合架构

数据中心可以有多个环境或单一的环境。 一个环境包括存储、计算、安全和治理服务以及操作服务(日志、度量)。 用 户可以拥有一个100个节点的环境,存储和计算在同一服务器中被耦合在一起,从数据本地化中获益。 或者,用户可以在一个存储环境中投入50个节点和在一个计算环境中投50个节点,以便存储环境和计算环境能够独立地扩展。 存储环境规模达到数百亿个文件,而计算环境提供了容器化的体系结构来运行工作负载。

640?wx_fmt=png

图3 开放混合架构的高层视角

用户可以拥有多个部门,分享环境,同时拥有自己的安全和治理控件,不让他们的数据集相互可见(例如垂直的医疗保健)。 可能有用户希望加入跨部门的数据集,在这种情况下,他们可以只有一个数据湖映射到一个单一的环境中。

在一个部门里可能有成百上千的租户需要解决一个商业问题并且需要一个工作量(比如 EDW,数据科学)。 管理员或部门级的架构师可以为数据集提供访问控制,并使用容器在计算环境中为租户创建一个工作负载。 现在,租户可以访问以人为中心的用户界面来访问数据集并解决他/她的业务问题。 所有的用户界面和工作负载都可以通过开放混合架构完成。

参考资料:

https://hortonworks.com/blog/open-hybrid-architecture-bringing-cloud-native-to-on-premises/

https://hortonworks.com/blog/bringing-cloud-native-architecture-to-big-data-in-the-data-center/


目录
相关文章
|
2月前
|
机器学习/深度学习 数据采集 人工智能
揭秘!47页文档拆解苹果智能,从架构、数据到训练和优化
【8月更文挑战第23天】苹果公司发布了一份47页的研究文档,深入解析了其在智能基础语言模型领域的探索与突破。文档揭示了苹果在此领域的雄厚实力,并分享了其独特的混合架构设计,该设计融合了Transformer与RNN的优势,显著提高了模型处理序列数据的效能与表现力。然而,这种架构也带来了诸如权重平衡与资源消耗等挑战。苹果利用海量、多样的高质量数据集训练模型,但确保数据质量及处理噪声仍需克服。此外,苹果采取了自监督与无监督学习相结合的高效训练策略,以增强模型的泛化与稳健性,但仍需解决预训练任务选择及超参数调优等问题。
140 66
|
3月前
|
存储 分布式数据库 数据库
Hbase学习二:Hbase数据特点和架构特点
Hbase学习二:Hbase数据特点和架构特点
62 0
|
3月前
|
SQL 数据库
数据架构问题之如何通过计算引擎的流批一体能力和对应的connector解决数据同步问题
数据架构问题之如何通过计算引擎的流批一体能力和对应的connector解决数据同步问题
|
16天前
|
存储 大数据 数据处理
洞察未来:数据治理中的数据架构新思维
数据治理中的数据架构新思维对于应对未来挑战、提高数据处理效率、加强数据安全与隐私保护以及促进数据驱动的业务创新具有重要意义。企业需要紧跟时代步伐,不断探索和实践新型数据架构,以洞察未来发展趋势,为企业的长远发展奠定坚实基础。
|
1月前
|
存储 搜索推荐 数据库
MarkLogic在微服务架构中的应用:提供服务间通信和数据共享的机制
随着微服务架构的发展,服务间通信和数据共享成为关键挑战。本文介绍MarkLogic数据库在微服务架构中的应用,阐述其多模型支持、索引搜索、事务处理及高可用性等优势,以及如何利用MarkLogic实现数据共享、服务间通信、事件驱动架构和数据分析,提升系统的可伸缩性和可靠性。
36 5
|
2月前
|
安全 网络安全 数据安全/隐私保护
云原生技术探索:容器化与微服务架构的实践之路网络安全与信息安全:保护数据的关键策略
【8月更文挑战第28天】本文将深入探讨云原生技术的核心概念,包括容器化和微服务架构。我们将通过实际案例和代码示例,展示如何在云平台上实现高效的应用部署和管理。文章不仅提供理论知识,还包含实操指南,帮助开发者理解并应用这些前沿技术。 【8月更文挑战第28天】在数字化时代,网络安全和信息安全是保护个人和企业数据的前线防御。本文将探讨网络安全漏洞的成因、加密技术的应用以及提升安全意识的重要性。文章旨在通过分析网络安全的薄弱环节,介绍如何利用加密技术和提高用户警觉性来构建更为坚固的数据保护屏障。
|
2月前
|
存储 监控 安全
大数据架构设计原则:构建高效、可扩展与安全的数据生态系统
【8月更文挑战第23天】大数据架构设计是一个复杂而系统的工程,需要综合考虑业务需求、技术选型、安全合规等多个方面。遵循上述设计原则,可以帮助企业构建出既高效又安全的大数据生态系统,为业务创新和决策支持提供强有力的支撑。随着技术的不断发展和业务需求的不断变化,持续优化和调整大数据架构也将成为一项持续的工作。
|
2月前
|
机器学习/深度学习 自然语言处理 数据处理
|
2月前
|
缓存 程序员 调度
第3章-图形处理单元-3.1-数据并行架构
第3章-图形处理单元-3.1-数据并行架构
31 1
|
2月前
|
Java 数据库连接 微服务
揭秘微服务架构下的数据魔方:Hibernate如何玩转分布式持久化,实现秒级响应的秘密武器?
【8月更文挑战第31天】微服务架构通过将系统拆分成独立服务,提升了可维护性和扩展性,但也带来了数据一致性和事务管理等挑战。Hibernate 作为强大的 ORM 工具,在微服务中发挥关键作用,通过二级缓存和分布式事务支持,简化了对象关系映射,并提供了有效的持久化策略。其二级缓存机制减少数据库访问,提升性能;支持 JTA 保证跨服务事务一致性;乐观锁机制解决并发数据冲突。合理配置 Hibernate 可助力构建高效稳定的分布式系统。
59 0