“后红海”时代,大数据体系到底是什么?-上篇-阿里云开发者社区

开发者社区> 1858841128540163> 正文

“后红海”时代,大数据体系到底是什么?-上篇

简介: 主要解读当下的大数据体系的四个热点。
+关注继续查看

任何一种技术都会经历从阳春白雪到下里巴人的过程,就像我们对计算机的理解从“戴着鞋套才能进的机房”变成了随处可见的智能手机。在前面20年中,大数据技术也经历了这样的过程,从曾经高高在上的 “火箭科技(rocket science)”,成为了人人普惠的技术。

回首来看,大数据发展初期涌现了非常多开源和自研系统,并在同一个领域展开了相当长的一段“红海”竞争期,例如Yarn VS Mesos、Hive VS Spark、Flink VS SparkStreaming VS Apex、Impala VS Presto VS Clickhouse等等。经历激烈竞争和淘汰后,胜出的产品逐渐规模化,并开始占领市场和开发者。

事实上,近几年,大数据领域已经没有再诞生新的明星开源引擎(Clickhouse@2016年开源,PyTorch@2018年开源),以Apache Mesos等项目停止维护为代表,大数据领域进入“后红海”时代:技术开始逐步收敛,进入技术普惠和业务大规模应用的阶段。

本文试从系统架构的角度,就大数据架构热点,每条技术线的发展脉络,以及技术趋势和未解问题等方面做一概述。
值得一提的是,大数据领域仍然处于发展期,部分技术收敛,但新方向和新领域层出不穷。本文内容和个人经历相关,是个人的视角,难免有缺失或者偏颇,同时限于篇幅,也很难全面。仅作抛砖引玉,希望和同业共同探讨。

当下的大数据体系热点

BigData概念在上世纪90年代被提出,随Google的3篇经典论文(GFS,BigTable,MapReduce)奠基,已经发展了将近20年。这20年中,诞生了包括Google大数据体系,微软Cosmos体系,阿里云的飞天系统,开源Hadoop体系等优秀的系统。这些系统一步步推动业界进入“数字化“和之后的“AI化”的时代。

海量的数据以及其蕴含的价值,吸引了大量投入,极大的推动大数据领域技术。云(Cloud)的兴起又使得大数据技术对于中小企业唾手可得。可以说,大数据技术发展正当时。

从体系架构的角度看,“Shared-Everything”架构演进、湖仓技术的一体化融合、云原生带来的基础设计升级、以及更好的AI支持,是当下平台技术的四个热点。

1.1 系统架构角度,平台整体向Shared-Everything架构演进

泛数据领域的系统架构,从传统数据库的Scale-up向大数据的Scale-out发展。从分布式系统的角度,整体架构可以按照Shared-Nothing(也称MPP), Shared-Data, Shared-Everything 三种架构。

大数据平台的数仓体系最初由数据库发展而来,Shared-Nothing(也称MPP)架构在很长一段时间成为主流。随云原生能力增强,Snowflake为代表的Shared-Data逐渐发展起来。而基于DFS和MapReduce原理的大数据体系,设计之初就是Shared-Everything架构。

Shared-Everything架构代表是GoogleBigQuery和阿里云MaxCompute。从架构角度,Shared-Everything架构具备更好的灵活性和潜力,会是未来发展的方向。

https://intranetproxy.alipay.com/skylark/lark/0/2021/png/29542/1625215479975-b22c543e-0aa1-4e48-9870-e22f665baddc.png?x-oss-process=image%2Fresize%2Cw_750%2Climit_0image.png
(图:三种大数据体系架构)

1.2 数据管理角度,数据湖与数据仓库融合,形成湖仓一体

数据仓库的高性能与管理能力,与数据湖的灵活性,仓和湖的两套体系在相互借鉴与融合。在2020年各个厂商分别提出湖仓一体架构,成为当下架构演进最热的趋势。但湖仓一体架构有多种形态,不同形态尚在演进和争论中。

https://intranetproxy.alipay.com/skylark/lark/0/2021/png/29542/1627356160062-b6cf14b6-13fc-4ae0-9f9e-2efce9cf9a45.png?x-oss-process=image%2Fresize%2Cw_597%2Climit_0image.png
(图:数据湖与数据仓库借鉴融合)

1.3 云架构角度,云原生与托管化成为主流

随着大数据平台技术进入深水区,用户也开始分流,越来越多的中小用户不再自研或自建数据平台,开始拥抱全托管型(通常也是云原生)的数据产品。Snowflake作为这一领域的典型产品,得到普遍认可。面向未来,后续仅会有少量超大规模头部公司采用自建(开源+改进)的模式。

https://intranetproxy.alipay.com/skylark/lark/0/2021/png/52724/1627357145009-4c910d78-60e2-43af-95a4-75d671c5f54f.png?x-oss-process=image%2Fresize%2Cw_416%2Climit_0image.png
(图:snowflake的云原生架构)

1.4 计算模式角度,AI逐渐成为主流,形成BI+AI双模式

BI作为统计分析类计算,主要是面向过去的总结;AI类计算则具备越来越好的预测未来的能力。在过去五年中,算法类的负载从不到数据中心总容量的5%,提升到30%。AI已经成为大数据领域的一等公民。

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
阿里云acp大数据专业认证考试是什么?大数据是什么?
阿里云大数据专业认证考试是什么?大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
46 0
阿里云服务器端口号设置
阿里云服务器初级使用者可能面临的问题之一. 使用tomcat或者其他服务器软件设置端口号后,比如 一些不是默认的, mysql的 3306, mssql的1433,有时候打不开网页, 原因是没有在ecs安全组去设置这个端口号. 解决: 点击ecs下网络和安全下的安全组 在弹出的安全组中,如果没有就新建安全组,然后点击配置规则 最后如上图点击添加...或快速创建.   have fun!  将编程看作是一门艺术,而不单单是个技术。
4576 0
全新什么是大数据开发方法过程就是这么简单
大数据方向的工作目前分为三个主要方向: 01.大数据工程师 02.数据分析师 03.大数据科学家 04.其他(数据挖掘本质算是机器学习,不过和数据相关,也可以理解为大数据的一个方向吧) 一、大数据工程师的技能要求 二、大数据学习路径 三,大数据学习扣裙:199427210 大数据开发个人学习规划...
992 0
带你了解阿里acp大数据认证是什么
不知道小伙伴们有没有发现,手机的各种app经常会给我们推送自己感兴趣的信息或者是最近一直在浏览的信息。给人一种受到“监控”的错觉?其实这就是所谓的大数据在作祟,是不是觉得很神奇,让人觉得很不可思议?现在还有阿里大数据认证这一说法,也就是说可以在相关平台取得认证之后可以有机会去你心心念念的阿里企业工作,让你可以有机会大展身手一番。
46 0
什么是大数据?
曾在《大数据时代》一书中提到,以前人们使用的大多是抽样数据,而大数据则包含了所有数据。另外,大数据关注效率,而不是精准度,关注关联性,而不是因果关系。以前的大多数数据被称为结构化数据,比如“你几岁?我15岁”,而“我今天说了什么话?我今天吃了什么东西?”这些数据则被称为非结构化数据,主要指一些描述性的数据。
658 0
阿里云ECS云服务器初始化设置教程方法
阿里云ECS云服务器初始化是指将云服务器系统恢复到最初状态的过程,阿里云的服务器初始化是通过更换系统盘来实现的,是免费的,阿里云百科网分享服务器初始化教程: 服务器初始化教程方法 本文的服务器初始化是指将ECS云服务器系统恢复到最初状态,服务器中的数据也会被清空,所以初始化之前一定要先备份好。
10784 0
5
文章
0
问答
文章排行榜
最热
最新
相关电子书
更多
文娱运维技术
立即下载
《SaaS模式云原生数据仓库应用场景实践》
立即下载
《看见新力量:二》电子书
立即下载