Hadoop 已死,AI 吞噬世界!

简介: 在数据领域,AI 正逐步重塑数据处理和分析的各个环节,从 ETL、数据治理到数据分析和消费方式均会发生根本性变化。Kyligence 联合创始人 & CEO,Apache 顶级开源项目。

在数据领域,AI 正逐步重塑数据处理和分析的各个环节,从 ETL、数据治理到数据分析和消费方式均会发生根本性变化。Kyligence 联合创始人 & CEO,Apache 顶级开源项目。Apache Kylin 的创建者韩卿(Luke.han)将用这篇文章来分享他在 AI 冲击开源领域之后引发的深度思考,其中涵盖了开源项目的商业化路径、技术变迁对行业格局的影响、AI 对数据分析和业务决策范式的革新等多个层面,反映出大数据与分析行业正在经历一场深刻的变革,呼唤从业者积极应对和创新。

Apache Kylin 毕业于 2015 年,Kyligence 公司成立于 2016 年,在过去几年,我们在技术上不断迭代和更新,以适应新的技术趋势,积累了不少实践和总结。

在新年之际,我想借此机会,和大家分享更多我们的一些思考,介绍我们对相关趋势的观察和思考,以及对未来的一些认知。希望大家一起,为这个行业的变革带来贡献。

开源赚不了大钱!

这是我很不愿意提及的话题,但事实如此。

从商业角度看,开源不是商业模式,只是市场手段。而在商业上,如果没有有效的商业化手段,开源的用户是不会转换成为付费用户,从行业中很多朋友们的实践中可以深刻地感受到。

很多人对我们的认知不够深刻,觉得我们是让用户先用开源 Kylin,然后转换到商业版本,这个误解很多年了。Apache Kylin 在我们离开 eBay 的时候,已经完成了几项重要的社区工作:

  • 毕业成为 ASF 顶级项目,建立了品牌和知名度
  • 被几大互联网厂商大规模使用,包括百度、网易、头条、美团等,磨炼了技术成熟度
  • 作为中国第一个 ASF 顶级开源项目,构建了社区和影响力

因此,在我们创立 Kyligence 公司的时候,即全面开启商业化,几乎所有的客户都是直接谈的企业版,并且在一开始就走商业化合作,这也是这么多头部客户持续合作多年的原因。今天我们积累了这么多企业级客户,只有极个别是使用了 Apache Kylin 之后转换为商业版的,尤其是银行等金融客户,一开始就对企业级特性、安全、资源管理以及服务等提出了苛刻的需求,而这些也是企业版的设计目标。客户要的从来不仅仅只是技术,而是技术背后的产品设计、服务保障以及持续的创新能力

商业是商业,我们所有人必须要深刻理解客户为什么付钱,为什么愿意付我们这么多钱。底层技术突破很难,但往往在产品上,真正赚钱的不是最高深的技术,我们只需要提升一些用户体验,改变一些工艺流程,只要能够帮助用户节省人力、成本,提升效率,客户都是愿意付费的——每个技术点,都要设计价值主张给到客户,而不只是声称技术很厉害,必须得到客户的认可。这需要我们更多地深入客户现场,更多去理解客户的实际需求、痛点、痒点。

当然,我们并不否认开源的价值。我们自己也是从开源技术、社区等获益匪浅,因此我们也将持续在各个开源项目中持续投入、参与和继续主导。

"Hadoop 已死"

Hadoop 作为大数据的代表,曾经风光无限,有着巨大的市场机会。可惜在 2021 年随着 MapR 的出售和 Cloudera 的私有化逐渐没落。这里面夹杂着太多的原因,但从我的视角,主要来自于社区的分裂和商业策略上的保守

2017 年,Doug Cutting(Hadoop 之父)在 Hadoop 十周年之际畅想未来十年的 Hadoop 生态将会如何。而不到 5 年,行业已经几乎很少再谈论 Hadoop 的相关技术——有也只是小修改,没有惊艳的项目出现了。

在创业的前五年,我们很幸运跟着大数据、数据湖的扩张而扩张,那时候各家银行都在将基于 MPP 数据仓库的应用迁移到基于 Hadoop 的大数据平台。但随着 Hadoop 厂商的没落,我们也明显能感觉到市场的快速变化,同时随着云计算的兴起,云数据仓库、云数据湖又非常快速的在市场上出现,“数据仓库”的技术流派逐渐分裂。而国内的情况更加糟糕,滋生了各种定制的 Hadoop、魔改的私有云,使得这个市场非常复杂,却又很难赚到超额利润。

2021 年,某银行客户领导联系我们去讲课,直接坦承“Hadoop 已经结束了”,让我们去和他们的架构团队探讨 Hadoop 之后的大数据平台应该如何走向,以及现有的架构、应用等如何迁移等。当时我们就非常敏感地意识到,必须更快地迭代和转型。

过去的两年多来,我们可以真切地感受到,以 Hadoop 为主的平台正在放缓建设,一部分重新回到了 MPP(以数据仓库为基础,大数据/数据湖支撑部分业务),一部分走向了云原生架构(以数据湖为基础,走向湖仓一体)。我预测,未来这种复杂的混部架构应该会持续存在至少 5 年以上

"BI 即将进化"

现代的 BI 工具,几乎都是可视化工具,而之所以需要这么强的可视化,是因为人类无法直接理解数据,给人 0 和 1 是无法直接解读和理解的。而图形可以帮助人类快速理解,某个指标是涨了还是跌了,某个因子比另外一个要影响更大,哪个结果指标是由哪几个过程指标分解等等。优秀的可视化能力,是帮助分析师高效完成分析、总结和探索的的利器

但今天,当 AI 可以直接读取和分析数据的时候,就不需要前置一个可视化工具了。直接给 AI 数据 0 和 1,即可让 AI 快速给出分析结论:是涨了跌了?背后是为什么?什么因子影响的?影响有多大?还有什么原因……AI 产生的效率提升,是十倍到百倍以上的。相当于 AI 把以前分析师需要做的大部分工作都做了,人类只需要进行选择、判断和稍微修正就行。这是 AI 时代对数据和分析行业带来巨大变化的第一点。

自动化行业有一个非常好的比喻:不要让机器人打算盘。都已经有 AI 了,人类可以问 AI 要结果和建议,而不是依然让 AI 去做低效的工作。

图片来源:ChatGPT-4

我们今天的产品已经做到了这些能力,我们可以更进一步,去改变这个行业。为用户提供一个动态的、聪明的、高效的决策助理/Copilot,而不仅仅只是一个数据呈现工具。

从性能转移到绩效

我们在 OLAP 的场景中,经常碰到的挑战就是 Performance/性能

虽然性能是我们的强项,但往往我们花费了无数的心血,可能只是为了帮助客户的某条 SQL 提速了几秒钟,或者只是让他们在点开仪表盘的时候少等待几秒。

在技术 PK 中,Performance 也是最常见的、竞争性最强的一个点。性能良好的系统/OLAP,当然是非常好的,但当大家都到了秒级的时候,其实已经没什么可比的。而往往改变一个数据结构,或者一个数据 Pipeline,就能够以数量级的方式提升性能。

那为什么需要这么好的性能?在 AI 时代,性能依然重要吗?我们认为,之所以需要 OLAP 或者数据仓库端有极好的性能,是因为大量的数据分析工作,依赖于有限的几个分析师或业务用户,而这个人群的业务压力非常大,且往往数据出来后,依然有着非常繁重的任务,比如对比数据、查阅历史、分析原因、重跑各种可能性等等,并要形成报告和决策、行动建议。所以一个非常好用的工具确实是必不可少的。

但在 AI 时代,这里的大量工作其实可以委托给 AI 完成,甚至可以让 AI 提前完成,尤其是固有的、常用分析套路。AI 可以快速给出大致的总结,这已经能够大大节省人力。AI 甚至可以让各种系统自动化连接起来。

今天我们用 Kyligence Zen 出一个周报或者做一次归因,只要十秒左右即可,而且自带了总结,这比传统的那套流程:出结果、查资料、写报告……已经有了质的提升。性能,尤其是查询性能,在这个场景下其实已经没那么严苛了。反而,并发性成了下一个挑战,因为会有越来越多的人来使用系统。而并发,正好也是我们的强项。

而最近,更多的客户已经将关注点,从性能转移到了 Performance 的另外一个含义:绩效

指标平台,本质上是一个 KPI 平台,而 KPI 则是 Key Performance Indicator 的缩写。当我们将关注点从性能转移到绩效的时候,突然发现,这才是客户真正要的产品:仪表盘或者报表从来不是客户要得最终结果,他们要得是基于数据的管理能力。几乎每一个有用的指标/Metric,都展示了某个业务或者管理的结果,而一个公司之所以需要指标,就是为了更好地观测相关业务的进展、健康状态以及及时采取措施来修正组织行为,从而确保公司的整体或者部分绩效能够按照设定的目标行进。

我们要跳出技术思维,在 Performance/绩效上打出差异化和壁垒,提升技术投入的 ROI,并快速占据市场。

"AI 吞噬世界"

图片来自网络

AI 正在吞噬软件,这是 NVIDIA 黄仁勋在2017年的一篇采访中提到的,到今天,应该没有人再怀疑这个论断。现在的问题是,AI 将如何改变不同领域的软件,在我们自己的行业,就是 AI 将如何改变数据与分析市场。

图片来自网络

在数仓领域,上面这种图已经用了超过 30 年了:“数据源”—“ETL”—“数据仓库”—“OLAP/数据集市”—“BI/Reporting”顶多再加上“元数据”和“分析预测”。无论 ELT 还是 ETL、数据湖还是数据仓库、本地部署还是云端部署,其中所有的假设,都是数据需要经过漫长的工程,从原始数据萃集后,整理成星型或雪花模型,从而提供给上层 BI 等使用。作为使用者的最终用户,往往是最后才被赋能,从而导致大量的数据其实今天依然没有被充分利用起来

Generative AI(生成式 AI)的出现,使得数据的工艺流程出现了巨大的变革,数据的加工方式发生了革命性的变化。首先,各种复杂的重复性的劳动,尤其是数据的 Pipeline,都将由 AI Agent 来处理。小到行列转换,大到数据治理,未来应该有很多的 AI Agent 来处理这些工作,人类只需要用提示词设计合理的流程就好。这从 ChatGPT 自带的 Advanced Data Analysis 和众多使用 OpenAI’s Code Interpreter 的数据分析工具都可以看到,甚至 GPTs 可以通过几个简单的提示词就可以完成很多数据梳理、分析的工作。

当时我在一个内部的文档中就写到:

其次,人和机器的交互进化到了最自然的方式,数据的消费方式发生了革命性的变化。只要会说话,就能用数据,是这一次 AI 带来的巨大变革。这使得原来只有领导、分析师、专业用户等才能使用的“数据和分析能力”,一下子平民化到了每个人,即使文化水平有限的用户,也能被充分赋能。这将大大改变现在的数据架构、处理模式和消费方式等。

大部分公司现在能够有效使用数据的员工不超过 10 ~ 15%,而这次 AI 革命,能够让其余 85 ~ 90% 的人直接消费数据或者数据产品,可以预见,现有的数据架构是无法满足的。这里的变革才刚开始,我们的实践走在行业最前沿,最近收到很多的市场反馈,都说我们的产品做的非常务实和好用,甚至某头部股份制银行和我谈是不是给他们提供个产品咨询教他们怎么做产品——这说明我们的设计、体验和功能,获得了最终用户的认可,正在影响行业的发展。

当每个人都能、都需要消费数据的时候,传统的数据仓库或者数据湖的架构是否还适用,数据的存储方式将发生什么样的变革?这是一个开放问题,目前我还没有具体的答案,但可以预见,AI 的场景,必然会要求系统处理更多的数据,更灵活地访问数据和更高效地服务更多人。从今天的大部分 MPP 和大数据的架构上看,在这几个方面应该都会很快面临巨大的挑战,当比现在访问量大十倍、百倍甚至万倍的时候,今天任何数据系统要在成本可控的情况下完成都非常困难,这里期待我们未来和客户一起共同研究和探索,一起突破这里的极限。

AI 能带来的,将远比这些更多。AI 将带来数据和分析的深层次革命。机器将代替人类完成更多的工作,尤其是重复的、可被自动化的。过去数据系统完成数据的加工和指标的统计后,后续需要大量的人工去分析影响相关指标变化的影响要素,探索根因,并根据经验提供相关的决策建议。

简单的实践就能看到巨大的变化,这里面的潜力无限。希望所有人都能发挥想象力,更多地让 AI 来改变数据和分析,甚至是整个企业的经营和管理。

参考

作者:CSDN资讯

链接:https://blog.csdn.net/csdnnews/article/details/135965309

来源:CSDN

著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

相关实践学习
AnalyticDB MySQL海量数据秒级分析体验
快速上手AnalyticDB MySQL,玩转SQL开发等功能!本教程介绍如何在AnalyticDB MySQL中,一键加载内置数据集,并基于自动生成的查询脚本,运行复杂查询语句,秒级生成查询结果。
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
相关文章
|
5月前
|
分布式计算 资源调度 大数据
【决战大数据之巅】:Spark Standalone VS YARN —— 揭秘两大部署模式的恩怨情仇与终极对决!
【8月更文挑战第7天】随着大数据需求的增长,Apache Spark 成为关键框架。本文对比了常见的 Spark Standalone 与 YARN 部署模式。Standalone 作为自带的轻量级集群管理服务,易于设置,适用于小规模或独立部署;而 YARN 作为 Hadoop 的资源管理系统,支持资源的统一管理和调度,更适合大规模生产环境及多框架集成。我们将通过示例代码展示如何在这两种模式下运行 Spark 应用程序。
285 3
|
5月前
|
资源调度 分布式计算 Hadoop
揭秘Hadoop Yarn背后的秘密!它是如何化身‘资源大师’,让大数据处理秒变高效大戏的?
【8月更文挑战第24天】在大数据领域,Hadoop Yarn(另一种资源协调者)作为Hadoop生态的核心组件,扮演着关键角色。Yarn通过其ResourceManager、NodeManager、ApplicationMaster及Container等组件,实现了集群资源的有效管理和作业调度。当MapReduce任务提交时,Yarn不仅高效分配所需资源,还能确保任务按序执行。无论是处理Map阶段还是Reduce阶段的数据,Yarn都能优化资源配置,保障任务流畅运行。此外,Yarn还在Spark等框架中展现出灵活性,支持不同模式下的作业执行。未来,Yarn将持续助力大数据技术的发展与创新。
75 2
|
5月前
|
机器学习/深度学习 API 网络架构
"解锁机器学习超级能力!Databricks携手Mlflow,让模型训练与部署上演智能风暴,一触即发,点燃你的数据科学梦想!"
【8月更文挑战第9天】机器学习模型的训练与部署流程复杂,涵盖数据准备、模型训练、性能评估及部署等步骤。本文详述如何借助Databricks与Mlflow的强大组合来管理这一流程。首先需在Databricks环境内安装Mlflow库。接着,利用Mlflow跟踪功能记录训练过程中的参数与性能指标。最后,通过Mlflow提供的模型服务功能,采用REST API或Docker容器等方式部署模型。这一流程充分利用了Databricks的数据处理能力和Mlflow的生命周期管理优势。
197 7
|
5月前
|
分布式计算 Hadoop 大数据
Spark 与 Hadoop 的大数据之战:一场惊心动魄的技术较量,决定数据处理的霸权归属!
【8月更文挑战第7天】无论是 Spark 的高效内存计算,还是 Hadoop 的大规模数据存储和处理能力,它们都为大数据的发展做出了重要贡献。
96 2
|
5月前
|
监控 大数据 API
震撼来袭!Apache Flink:实时数据流处理界的超级巨星,开启全新纪元,让你的数据飞起来!
【8月更文挑战第6天】随着大数据时代的到来,企业急需高效处理实时数据流。Apache Flink作为一款开源流处理框架,以高性能、可靠性及易用性脱颖而出。Flink能无缝处理有界和无界数据流,支持低延迟实时分析,适用于实时推荐、监控及风控等场景。例如,在实时风控系统中,Flink可即时分析交易行为以检测欺诈。以下示例展示了如何使用Flink实时计算交易总额,通过定义Transaction类和使用DataStream API实现数据流的实时处理和聚合。Flink正以其强大的实时处理能力和高度可扩展性引领实时数据流处理的新时代。
73 0
|
8月前
|
存储 分布式计算 Hadoop
【专栏】Hadoop,开源大数据处理框架:驭服数据洪流的利器
【4月更文挑战第28天】Hadoop,开源大数据处理框架,由Hadoop Common、HDFS、YARN和MapReduce组成,提供大规模数据存储和并行处理。其优势在于可扩展性、容错性、高性能、灵活性及社区支持。然而,数据安全、处理速度、系统复杂性和技能短缺是挑战。通过加强安全措施、结合Spark、自动化工具和培训,Hadoop在应对大数据问题中保持关键地位。
222 1
|
存储 大数据 分布式数据库
大数据时代必修技能 阿里HBase又放出了哪些大招?
HBaseCon是Apache HBase官方举办的技术会议,主要目的是分享,交流HBase这个开源分布式大数据存储的使用和开发以及发展。HBaseCon发起于2012年。通常HBaseCon的举办地是在美国,这是HBaseCon第一次在亚洲举行,命名为Apache HBaseCon 2017Asia。
3547 0