“后红海”时代，大数据体系到底是什么？-下篇

2021-10-28 298

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

云原生大数据计算服务MaxCompute，500CU*H 100GB 3个月

云原生大数据计算服务 MaxCompute，5000CU*H 100GB 3个月

简介： 大数据体系未来演进的4大技术趋势和3个待探索疑问。

**03 大数据体系未来演进的4大技术趋势

趋势1：近实时架构兴起
在离线batch计算和纯流式实时计算之间，以开源Apache Delta/Hudi为代表的近实时架构成为热点。近实时架构避免了流计算庞大的状态存储与管理，在成本和延迟上找到了另一个平衡。随近实时架构的形成，计算架构最终完成从离线到实时全频谱支持。

趋势2：数据共享与隐私保护成为热点
数据成为资产，开始具备可变现和可交易的能力。可保护隐私的数据交换/共享能力成为强劲的需求。基于Differential Privacy的数据编码交易，以及基于Federated Learning的多方面安全计算是该领域的热点技术。

趋势3：IoT成为新热点
目前人的行为数据（日志）是大数据计算的主要来源，超过80%的数据都来源于行为日志（例如浏览、点击）。随5G+智能化设备的兴起，设备日志会成为更大的数据源增长点，面向海量低价值设备数据的处理和优化，需要得到更多的关注。

趋势4： AI for System
AI for System，即上文中提到的大数据自动驾驶。AI作为工具，成为优化的常用手段。在大数据领域，随数据量/系统复杂度的增长，DBA模式已经不再试用。利用算法优化系统成为主流方向，大数据的“自动驾驶”会越来越自动。

**04 大数据体系内待探索的3个疑问

**
大数据技术收敛，并进入普惠和业务大规模应用的阶段，渗透到各行各业。超大规模数据计算和基于数据的智能决策，已经是企业业务数据化运营的重要基础。不过，在后红海时代，大数据体系发展有3个疑问值得我们关注：

疑问1:引擎发展呈现跨界的趋势，但最终是否能够诞生一套引擎满足多样的计算需求，并兼顾通用性和效率？

随大数据系统整体架构的稳定，各种引擎的发展逐渐进入收敛期，批计算、流计算、交互分析、机器学习收敛成为四个核心计算模式，每个模式均有主线开源引擎成为事实标准。

过去3年没有再诞生主流的开源计算引擎（每个模式中，引擎的发展脉络详见第二章节）。同时，引擎边界开始变得模糊，HTAP等Hybrid模式成为探索的新趋势，计算模式是否进一步收敛，收敛的终态会是什么样子，是个热点话题。

疑问2:关系模型之外，是否会发展出其他主流计算范式？

大数据领域整体还是以二维关系表达和计算为基础（Relational DB的理论基础），是否有新的计算范式在数据库领域也持续讨论了多年，尽管有包括图计算在内的其他计算范式，但过去的40年，关系运算持续成为主流。

其中核心原因，笔者个人的判断是二维关系表达更贴近人的理解能力，或者说高维表达和处理很难被人理解和处理。但关系表达有显著的短板，它无法处理半结构化和非结构化的数据（比如音视图类的数据）。

近几年兴起的深度学习技术，带来了一种全新的处理方式，海量正交化的高维特征作为输入，由深度神经网络理解数据，以模型作为产出的引擎计算出结果。这种方式避免人脑对数据处理的局限性，可以在更高维度更复杂数据上做处理，给未来提供了一种新的处理方式的可能性。

但深度学习核心仍然在寻找“最好”的co-relation，可解释性，推导逻辑以及对结果正确性保证都不够好。

疑问3:基于开源自建与直接选购企业级产品，谁更能获得用户的认可？

开源软件是大数据发展的关键推手，助力大数据系统的普及化。但面临如下挑战：开源系统的软件交付模式，也给很多客户带来高维护成本。

以一个典型的腰部互联网企业为例，一个100台规模的大数据平台硬件投入大约200万/年，同时需要维持一个3-5人的研发/运维团队，年成本200-300万/年。综合TCO高达450万/年。

这也是为什么像Snowflake这样的自研企业级产品流行的原因，大多数不具备深度研发能力的公司，愿意为更丰富的企业级能力和更低的综合TCO买单；大数据系统开发进入深水区，投资巨大，需要高商业利润才能支持。

事实上，云计算四巨头均有自己的自研产品提升利润率的同时也提升差异化竞争力（例如AWS Redshift，Google BigQuery，阿里云飞天MaxCompute）。
而每个开源社区背后无一例外均有商业公司推出企业版（例如Databricks之于Spark，VVP之于Flink、Elastic之于ElasticSearch）。

因此，长期看，大多数用户（特别是中小型）进入“技术冷静期”后，开始审慎考虑综合投资收益，考虑上云、以及直接采购企业级产品+服务（放弃自建平台）。

相关实践学习

基于MaxCompute的热门话题分析

本实验围绕社交用户发布的文章做了详尽的分析，通过分析能得到用户群体年龄分布，性别分布，地理位置分布，以及热门话题的热度。

SaaS 模式云数据仓库必修课

本课程由阿里云开发者社区和阿里云大数据团队共同出品，是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法，从场景到实践，体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库，助力开发者学习了解先进的技术栈，并能在实际业务中敏捷的进行大数据分析，赋能企业业务。通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景，可应用MaxCompute实现数仓搭建，快速进行大数据分析。适合大数据工程师、大数据分析师大量数据需要处理、存储和管理，需要搭建数据仓库？学它！没有足够人员和经验来运维大数据平台，不想自建IDC买机器，需要免运维的大数据平台？会SQL就等于会大数据？学它！想知道大数据用得对不对，想用更少的钱得到持续演进的数仓能力？获得极致弹性的计算资源和更好的性能，以及持续保护数据安全的生产环境？学它！想要获得灵活的分析能力，快速洞察数据规律特征？想要兼得数据湖的灵活性与数据仓库的成长性？学它！出品人：阿里云大数据产品及研发团队专家产品 MaxCompute 官网 https://www.aliyun.com/product/odps 

“后红海”时代，大数据体系到底是什么？-下篇

**03 大数据体系未来演进的4大技术趋势

**04 大数据体系内待探索的3个疑问

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

“后红海”时代，大数据体系到底是什么？-下篇

**03 大数据体系未来演进的4大技术趋势

**04 大数据体系内待探索的3个疑问

热门文章

最新文章

相关课程

相关电子书

相关实验场景