为什么说大数据和云计算的深度融合是大势所趋?

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 为什么说大数据和云计算的深度融合是大势所趋?

image.png

随着整个IT生态的进一步发展,在2021年,IT从业人员对大数据的发展趋势有一个普遍的共识,就是大数据和云计算的进一步深度融合的趋势,即大数据拥抱云计算,走向云原生化。

我们在这里,就跟大家一起看下,大数据与云计算的深度融合具体体现在哪些地方。

大数据与云计算的深度融合,体现在以下几个方面:

一是应用方的大数据平台上云:使用大数据技术的业务应用建设方,不再自建数据中心,而是将大数据平台搬到了云上,有的是在云厂商的 IaaS 层上自建大数据平台(现在以这种方式在云上使用大数据的案例已经比较少了),有的直接使用云厂商提供的 PaaS 层大数据相关产品(aws 的 emr,阿里云的 e-MapReduce等),有的甚至直接使用云厂商推出的 SaaS层大数据相关产品(aws的redshift, 阿里云的maxcompute等)。现在“上云”有一点趋势需要强调下,就是大家都很重视不 vendor-lockin,底层的云可能是多个公有云和私有的的融合的 hybrid-cloud;

二是云计算厂商在不断推出自己基于大数据的各种增值服务:为了提高自己的市场竞争力,以进一步巩固/拓宽自己的市场地位,各大云厂商也在积极推出自己整合的大数据相关产品,有最基础的 s3/oss, emr/e-mapreduce,有上文的aws redshift, 阿里云的maxcompute,除此之外,还有各种云上数据库,云上 serverless 形态的各种大数据服务等等,这个名单还在不断增长中,以下截图可见一斑:

image.png

aws的大数据相关产品

image.png

阿里云的大数据相关产品

三是各传统大数据厂商已经转向依托云来提供自己的产品和服务:如 elastic 很早就开始基于云交付自己的 elk 技术栈了,如 databricks 的大数据平台和产品一直都是基于云来向客户提供服务的(可以对接 aws, gcp, azure 等云平台),如 cloudera 不断探索改变自己的商业模式(从大数据三驾马车的辉煌期,到业绩下滑下的和 hortorworks 的合并,再到主动改变商业模式基于云来交付自己的产品和服务,甚至数据中心版的大数据平台都改名为了 cdp private cloud base);

image.png

elastic 的云上部署

image.png

砖厂的大数据产品都是基于云来交付的

四是各个具体的大数据组件都在主动改变自身架构,积极向云原生靠拢以“云化”:这才是大数据具体组件伤筋动骨的改变,是大数据主动的改变以适应云时代。从理念层面讲,大数据已经从最早的强调“数据本地性”和“移动数据不如移动计算”的理念,演进到了现在的强调“存储计算分离”的理念。各个新推出的组件和框架主动拥抱云原生,如pulsa,TiDB 等都是依托于存储计算分离的云原生架构; 各个传统的组件虽然有历史包袱,也在不断求新求变,如flink/spark 都深度整合支持了 kubernetes 集群模式;如 kafka 也在不断探索如花云化:包括完全去掉 zookeeper 依赖,包括 Rebalance Protocol 的 Static Membership 等;正如古语所言,“顺则昌不顺则亡”,一些不适应云原生架构的技术组件,其市场正在不断萎缩,如很多场景下,kubernetes 都替代了 yarn, 对象存储 oss/s3 等也在替代hdfs (笔者也注意到了apache 社区推出的 Ozone,该组件在对象存储的基础上,也融合推出了文件系统api,该组件的背后有很多原 hdfs 社区的 committer 在贡献代码,在 cloudera 的cdp平台中也内嵌支持了该组件)。下图展示了 flink/spark 跟kubernetes的深度整合:(注意不是简单的使用k8s operator 将 spark/flink 作业运行在k8s集群中,而是native的深度的整合)。

image.png

spark on kubernetes

image.png

flink on kubernetes


综合来讲,大数据云计算的深度融合是大势所趋,其主要体现在以上四个方面。需要说明的是,以上四个方面是相辅相成,互相促进的。如应用方的大数据平台上云的需求,促使了云计算厂商推出更好的托管的大数据增值服务,而云计算厂商推出的更多更好的大数据增值服务,也反过来促使了更多的应用方大数据平台上云;如基础设施上云的大趋势,促使了具体的大数据组件调整自身架构从而云化(因为顺则昌不顺则亡),而大数据具体组件云原生化的架构调整,也反过来促使了云计算厂商和大数据厂商能够基于云基础设施推出更多更好的大数据服务。正所谓 “it不分家,技术无疆界”是也。

参考链接


相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
17天前
|
存储 安全 网络安全
云计算与网络安全:技术融合下的挑战与机遇
【10月更文挑战第9天】在数字时代,云计算和网络安全是推动企业创新和保护资产的两大支柱。本文将探讨云计算服务如何影响网络安全策略,并分析信息安全在云环境中的重要性。我们将通过实际案例来揭示云服务带来的安全挑战,同时展示如何利用最新的安全技术来增强防护。文章旨在为读者提供深入的洞见,帮助他们在享受云计算便利的同时,有效规避潜在的安全风险。
33 1
|
4天前
|
机器学习/深度学习 人工智能 运维
智能运维:大数据与AI的融合之道###
【10月更文挑战第20天】 运维领域正经历一场静悄悄的变革,大数据与人工智能的深度融合正重塑着传统的运维模式。本文探讨了智能运维如何借助大数据分析和机器学习算法,实现从被动响应到主动预防的转变,提升系统稳定性和效率的同时,降低了运维成本。通过实例解析,揭示智能运维在现代IT架构中的核心价值,为读者提供一份关于未来运维趋势的深刻洞察。 ###
39 10
|
1天前
|
安全 网络安全 API
云计算与网络安全:技术融合与挑战
【10月更文挑战第25天】在数字化时代,云计算作为信息技术的革新者,提供了强大的数据处理能力和灵活的资源管理。然而,随之而来的网络安全问题亦日益凸显,成为制约云计算发展的关键因素。本文深入探讨了云计算服务中的网络安全挑战,分析了信息安全技术的应对策略,并提出了相应的解决方案。通过实际案例分析,文章旨在为读者提供一个关于如何在享受云服务便利的同时确保数据安全的全面视角。
|
2天前
|
存储 安全 网络安全
云计算与网络安全:技术融合下的挑战与对策
【10月更文挑战第23天】在数字化浪潮的推动下,云计算已成为企业信息技术架构的核心。然而,随之而来的网络安全问题也日益凸显,成为制约云服务发展的关键因素。本文将从云计算服务的基本概念出发,深入探讨网络安全的重要性,分析当前云计算环境中存在的安全威胁,并提出相应的防御策略。通过技术性的分析与实例说明,旨在为读者提供一套云计算环境下网络安全的实用对策。
15 1
|
5天前
|
存储 安全 网络安全
云计算与网络安全:技术融合与挑战
【10月更文挑战第21天】在数字化时代的浪潮中,云计算作为一项革命性技术正日益成为企业和个人存储、处理数据的优选方案。然而,随着云服务的快速发展和广泛应用,网络安全问题也随之浮现,成为制约云计算发展的关键因素之一。本文将探讨云计算环境中的网络安全挑战,分析信息安全的最佳实践,并提供相应的策略建议,以期为读者提供深入理解和有效应对网络威胁的方法。
26 3
|
4天前
|
云安全 安全 网络安全
云计算与网络安全:技术融合下的风险与对策
【10月更文挑战第22天】本文深入探讨了在云计算环境下,网络安全和信息安全领域的挑战与机遇。通过分析当前云服务的安全架构,识别潜在的安全威胁,并提出了相应的防范措施。文章旨在为读者提供一套全面的云计算安全解决方案,以保障数据的安全性和完整性。
|
6天前
|
算法 大数据 数据库
云计算与大数据平台的数据库迁移与同步
本文详细介绍了云计算与大数据平台的数据库迁移与同步的核心概念、算法原理、具体操作步骤、数学模型公式、代码实例及未来发展趋势与挑战。涵盖全量与增量迁移、一致性与异步复制等内容,旨在帮助读者全面了解并应对相关技术挑战。
14 3
|
15天前
|
存储 安全 网络安全
云端盾牌:云计算与网络安全的融合之道
在当今数字化时代,云计算以其高效、灵活和成本效益的特点,成为了企业和个人用户的首选技术平台。然而,随着数据上云的步伐加快,网络安全问题也日益凸显,成为制约云计算发展的关键因素。本文旨在探讨云计算环境中的网络安全挑战,分析云服务、网络安全及信息安全的相互关系,并提出相应的解决策略。通过深入剖析,本文揭示了在享受云计算带来的便利的同时,如何构建坚固的网络安全防护网,确保信息资产的安全与隐私保护。
|
12天前
|
存储 安全 网络安全
云计算与网络安全的融合之路
【10月更文挑战第13天】 在当今数字化时代,云计算已成为推动技术创新和服务优化的重要力量。然而,随着云服务的广泛应用,网络安全问题也日益凸显,成为制约云计算发展的关键因素。本文将深入探讨云计算与网络安全的融合策略,分析云服务、网络安全及信息安全等技术领域的发展趋势,并提出相应的解决方案和建议。通过阐述云计算的基本概念、特点及其在各行业的应用现状,揭示云服务带来的便利性与高效性;同时,聚焦网络安全的重要性,剖析当前面临的主要安全威胁与挑战,如数据泄露、恶意攻击等。本文还将探讨信息安全的关键技术与防护措施,包括数据加密、身份认证、访问控制等,并分析这些技术在云计算环境下的应用效果。最后,结合具体
17 2
|
16天前
|
存储 安全 网络安全
云计算与网络安全:技术融合与挑战
【10月更文挑战第9天】在数字化转型的浪潮中,云计算成为企业和个人不可或缺的技术支撑。然而,随之而来的网络安全问题也日益凸显。本文将深入探讨云计算环境下的网络安全挑战,分析云服务模式对信息安全的影响,并提出相应的防护措施。通过案例分析,我们将揭示如何在享受云计算带来的便利的同时,确保数据安全和隐私保护。