“后红海”时代,大数据体系到底是什么?-下篇

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 大数据体系未来演进的4大技术趋势和3个待探索疑问。

**03 大数据体系未来演进的4大技术趋势

**

趋势1:近实时架构兴起
在离线batch计算和纯流式实时计算之间,以开源Apache Delta/Hudi为代表的近实时架构成为热点。近实时架构避免了流计算庞大的状态存储与管理,在成本和延迟上找到了另一个平衡。随近实时架构的形成,计算架构最终完成从离线到实时全频谱支持。

趋势2:数据共享与隐私保护成为热点
数据成为资产,开始具备可变现和可交易的能力。可保护隐私的数据交换/共享能力成为强劲的需求。基于Differential Privacy的数据编码交易,以及基于Federated Learning的多方面安全计算是该领域的热点技术。

趋势3:IoT成为新热点
目前人的行为数据(日志)是大数据计算的主要来源,超过80%的数据都来源于行为日志(例如浏览、点击)。随5G+智能化设备的兴起,设备日志会成为更大的数据源增长点,面向海量低价值设备数据的处理和优化,需要得到更多的关注。

趋势4: AI for System
AI for System,即上文中提到的大数据自动驾驶。AI作为工具,成为优化的常用手段。在大数据领域,随数据量/系统复杂度的增长,DBA模式已经不再试用。利用算法优化系统成为主流方向,大数据的“自动驾驶”会越来越自动。

**04 大数据体系内待探索的3个疑问

**
大数据技术收敛,并进入普惠和业务大规模应用的阶段,渗透到各行各业。超大规模数据计算和基于数据的智能决策,已经是企业业务数据化运营的重要基础。不过,在后红海时代,大数据体系发展有3个疑问值得我们关注:

疑问1:引擎发展呈现跨界的趋势,但最终是否能够诞生一套引擎满足多样的计算需求,并兼顾通用性和效率?

随大数据系统整体架构的稳定,各种引擎的发展逐渐进入收敛期,批计算、流计算、交互分析、机器学习收敛成为四个核心计算模式,每个模式均有主线开源引擎成为事实标准。

过去3年没有再诞生主流的开源计算引擎(每个模式中,引擎的发展脉络详见第二章节)。同时,引擎边界开始变得模糊,HTAP等Hybrid模式成为探索的新趋势,计算模式是否进一步收敛,收敛的终态会是什么样子,是个热点话题。

疑问2:关系模型之外,是否会发展出其他主流计算范式?

大数据领域整体还是以二维关系表达和计算为基础(Relational DB的理论基础),是否有新的计算范式在数据库领域也持续讨论了多年,尽管有包括图计算在内的其他计算范式,但过去的40年,关系运算持续成为主流。

其中核心原因,笔者个人的判断是二维关系表达更贴近人的理解能力,或者说高维表达和处理很难被人理解和处理。但关系表达有显著的短板,它无法处理半结构化和非结构化的数据(比如音视图类的数据)。

近几年兴起的深度学习技术,带来了一种全新的处理方式,海量正交化的高维特征作为输入,由深度神经网络理解数据,以模型作为产出的引擎计算出结果。这种方式避免人脑对数据处理的局限性,可以在更高维度更复杂数据上做处理,给未来提供了一种新的处理方式的可能性。

但深度学习核心仍然在寻找“最好”的co-relation,可解释性,推导逻辑以及对结果正确性保证都不够好。

疑问3:基于开源自建与直接选购企业级产品,谁更能获得用户的认可?

开源软件是大数据发展的关键推手,助力大数据系统的普及化。但面临如下挑战:开源系统的软件交付模式,也给很多客户带来高维护成本。

以一个典型的腰部互联网企业为例,一个100台规模的大数据平台硬件投入大约200万/年,同时需要维持一个3-5人的研发/运维团队,年成本200-300万/年。综合TCO高达450万/年。

这也是为什么像Snowflake这样的自研企业级产品流行的原因,大多数不具备深度研发能力的公司,愿意为更丰富的企业级能力和更低的综合TCO买单;大数据系统开发进入深水区,投资巨大,需要高商业利润才能支持。

事实上,云计算四巨头均有自己的自研产品提升利润率的同时也提升差异化竞争力(例如AWS Redshift,Google BigQuery,阿里云飞天MaxCompute)。
而每个开源社区背后无一例外均有商业公司推出企业版(例如Databricks之于Spark,VVP之于Flink、Elastic之于ElasticSearch)。

因此,长期看,大多数用户(特别是中小型)进入“技术冷静期”后,开始审慎考虑综合投资收益,考虑上云、以及直接采购企业级产品+服务(放弃自建平台)。

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
大数据
《“后红海”时代,独家揭秘当下大数据体系》电子版地址
《“后红海”时代,独家揭秘当下大数据体系》从系统架构的角度,就大数据架构热点,每条技术线的发展脉络,以及技术趋势和未解问题等方面做一概述。
114 0
《“后红海”时代,独家揭秘当下大数据体系》电子版地址
|
大数据
《“后红海”时代,独家揭秘当下大数据体系》电子版地址
《“后红海”时代,独家揭秘当下大数据体系》从系统架构的角度,就大数据架构热点,每条技术线的发展脉络,以及技术趋势和未解问题等方面做一概述。特别的,大数据领域仍然处于发展期,部分技术收敛,但新方向和新领域层出不穷。本文内容和作者个人经历相关,是个人的视角,难免有缺失或者偏颇,同时限于篇幅,也很难全面。仅作抛砖引玉,希望和同业共同探讨。
161 0
《“后红海”时代,独家揭秘当下大数据体系》电子版地址
|
人工智能 Cloud Native 大数据
“后红海”时代, 阿里资深技术专家揭秘当下大数据体系
任何一种技术都会经历从阳春白雪到下里巴人的过程,就像我们对计算机的理解从 “戴着鞋套才能进的机房”变成了随处可见的智能手机。在前面 20 年中,大数据技术也经 历了这样的过程,从曾经高高在上的 “火箭科技(rocket science)”,成为了人人普惠 的技术。
18050 0
“后红海”时代, 阿里资深技术专家揭秘当下大数据体系
|
存储 SQL 机器学习/深度学习
“后红海”时代,大数据体系到底是什么?-中篇
介绍大数据体系的领域九大架构。
|
2月前
|
机器学习/深度学习 传感器 分布式计算
数据才是真救命的:聊聊如何用大数据提升灾难预警的精准度
数据才是真救命的:聊聊如何用大数据提升灾难预警的精准度
182 14
|
4月前
|
数据采集 分布式计算 DataWorks
ODPS在某公共数据项目上的实践
本项目基于公共数据定义及ODPS与DataWorks技术,构建一体化智能化数据平台,涵盖数据目录、归集、治理、共享与开放六大目标。通过十大子系统实现全流程管理,强化数据安全与流通,提升业务效率与决策能力,助力数字化改革。
159 4
|
3月前
|
机器学习/深度学习 运维 监控
运维不怕事多,就怕没数据——用大数据喂饱你的运维策略
运维不怕事多,就怕没数据——用大数据喂饱你的运维策略
146 0
|
4月前
|
分布式计算 DataWorks 数据处理
在数据浪潮中前行:记录一次我与ODPS的实践、思考与展望
本文详细介绍了在 AI 时代背景下,如何利用阿里云 ODPS 平台(尤其是 MaxCompute)进行分布式多模态数据处理的实践过程。内容涵盖技术架构解析、完整操作流程、实际部署步骤以及未来发展方向,同时结合 CSDN 博文深入探讨了多模态数据处理的技术挑战与创新路径,为企业提供高效、低成本的大规模数据处理方案。
292 3
|
2月前
|
传感器 人工智能 监控
数据下田,庄稼不“瞎种”——聊聊大数据如何帮农业提效
数据下田,庄稼不“瞎种”——聊聊大数据如何帮农业提效
137 14
|
1月前
|
传感器 人工智能 监控
拔俗多模态跨尺度大数据AI分析平台:让复杂数据“开口说话”的智能引擎
在数字化时代,多模态跨尺度大数据AI分析平台应运而生,打破数据孤岛,融合图像、文本、视频等多源信息,贯通微观与宏观尺度,实现智能诊断、预测与决策,广泛应用于医疗、制造、金融等领域,推动AI从“看懂”到“会思考”的跃迁。