这两年跟不少数据团队聊下来,我有个很强的感受:
过去大家做数据平台,目标很明确——把数“算出来、看明白”。数据仓库、ETL、指标体系、BI看板,基本围着“给人用”来建设。
但现在问题变了。
业务方会问:
- 能不能别等T+1?最好分钟级、至少别隔天。
- 文档、工单、客服对话这些“非表数据”,能不能也纳进同一套体系里?
- 既然要上AI,AI能不能直接用我们的数据做分析、做检索、做自动化?
如果你点头承认这些需求都合理,那其实结论也很直接:只做BI支撑的数据平台,已经不够用了。
这篇文章我想用更“工程视角”的方式,聊聊一种更现实的路线:
- 用 Lakehouse 把存储、计算、治理收拢到一套体系
- 用“通用增量计算”把新鲜度和成本这两件事同时解决掉
- 用 Data Agent 把很多原来靠人手跑的流程,尽量自动化
下面的内容,会结合云器的 Lakehouse 一体化引擎(Single-Engine / GIC)和 Data Agent 能力来展开。
1. 先说痛点:为什么一到“AI”,原来的数据平台就开始吃力
1)链路越来越多,口径越来越难统一
传统做法里,为了兼顾离线与实时,很多团队会自然走向 Lambda:
- 离线一套(Spark、离线数仓任务)
- 实时一套(Flink、实时指标、实时明细)
- 再配上各种服务层、缓存层、OLAP引擎
短期看是“能跑起来”,长期看就是:两套链路两套口径,出问题互相甩锅;一堆组件拼在一起,运维和升级压力都在自己身上。
2)数据不再只是“表”,而是混着用
AI应用天然会用到更多非结构化数据:产品文档、合同、邮件、知识库、会议纪要、客服对话……
如果这些东西没进治理体系,AI做出来的回答就会有两种典型结果:
- 要么“很聪明但不靠谱”(因为看不到权威数据)
- 要么“很谨慎但没用”(因为可用的数据太少)
3)使用者从“人”变成“人 + Agent”
以前的消费端是 BI、报表、数据产品;现在多了一个非常重要的角色:Agent。
它不只是查数,还会触发动作,比如:
- 自动生成分析结论、追问原因
- 自动补齐口径说明、找血缘、定位数据源
- 自动把一个需求拆成多步数据任务并执行
这对底座的要求其实更高:权限、元数据、资产可发现性、任务可控性……都要更“机器友好”。
2. “AI原生智能基座”别讲太玄:把三件事做扎实就够了
我不太喜欢把底座说得很玄。落到实践里,所谓“AI原生”,核心就是三件事:
- 统一治理:元数据、权限、安全策略、口径管理尽量统一,至少别割裂。
- 多模态数据能进来:结构化、半结构化、非结构化别各玩各的,能统一纳管、能检索、能分析。
- AI能用得起来:该有的索引、向量/标量检索、RAG知识库、函数/工具调用能力要补齐;更进一步,很多任务可以交给Agent去跑。
换句话说:不是“多了个大模型”,而是数据平台本身更像一套 Data + AI 基础设施。
3. 云器 Lakehouse 的思路:别堆组件,先把引擎统一
云器的路线比较“简单粗暴”:用 Single-Engine 把批处理、实时、交互分析尽量收敛到同一套计算底座。
这听起来像一句口号,但它确实能直接影响两件事:
- 架构复杂度:少一套引擎,就少一套运维、少一套方言、少一套数据冗余。
- 成本可控性:负载隔离、弹性并发、按需拉起,才能让资源跟着业务走。
从产品介绍里能看到,云器强调的是全托管、按量付费、0持有成本等能力,这背后指向的就是:平台不要把你锁在“常驻集群 + 人肉运维”里。
4. 真正的关键:通用增量计算(GIC)把“实时”和“省钱”绑在一起
关于通用增量计算,我前面写过一篇文章大家可以去看看:增量计算不是“更快的离线”:四个头部案例告诉你,数据架构升级真正的胜负手
很多团队对“实时”的第一反应是:上更多的实时任务、开更大的资源。
但现实是:数据量越大,越容易把自己拖进成本泥潭。
云器提出的 GIC(通用增量计算)思路,我觉得更接近工程常识:
- 上游数据一直在变
- 你真正需要的,是“最新结果”
- 那就别每次全量重算,尽量只算变化的部分,再把变化合并到历史结果里
它涉及三块能力:
- 引擎层理解增量:把批、流里的增量、乱序、回撤等复杂情况统一抽象
- 存储层支持增量读写:增量写入、合并、Compaction 等能力要跟上
- 架构层按需算:Shared-Everything 弹性调度,让增量任务不必“常驻服务”
这套逻辑最大的好处是:你不用用“堆资源”换实时,而是用“更聪明的计算模型”换实时。
5. 让 AI 真正落地:Data Agent 不是聊天,而是把流程交给它
很多“数据 + AI”的项目,最后卡在一个很尴尬的位置:
- 能问答
- 但只能问答
真正进入生产,要解决的是“它能不能做事”,比如:
- 根据你的问题,找到可信数据源
- 在权限范围内执行查询/任务
- 给出结论,同时把口径、SQL、链路说明补齐
云器在方案里提到的 Data Agent 路线,是把 MCP Server 当作底层能力入口,往端到端的两个方向走:
- Data Engineering Agent:偏开发、调度、加工、链路维护
- Data Analyst Agent:偏分析、解释、归因、可复现输出
另外一个容易被忽略但很重要的点是:RAG 的“知识库”不是只喂文档。
云器的描述里强调把企业元数据、清洗加工后的结构化/半结构化/非结构化数据、索引、向量化结果放在一起,形成统一知识库。对企业来说,这比“随便接个大模型”靠谱得多。
6. 两个案例,帮你判断这套东西是不是“真能用”
案例:小红书——实验数仓需要的不是更快的T+1,而是可控的近实时
产品介绍里提到,小红书的 A/B 实验平台在原有方案下遇到的问题很典型:
- 实时离线指标不一致
- 两套链路维护成本高
- 一些实时场景受限(比如大开窗)
- 成本压力持续上升
他们评估增量计算,是因为它能把“实时化”做得更经济、更可维护。方案里提到的实践包括:
- 用 GIC 重构核心数仓链路(ODS/DWD/DWS/ADS)
- 用动态表(Dynamic Tables)把增量管道做成声明式,更好维护
- 在开放数据湖格式(如 Iceberg)上构建分钟级新鲜度的主日志链路
案例:长安汽车——从多组件架构走向 Lakehouse,重点是降本和稳态运维
长安这类传统大体量场景,痛点通常不是“能不能跑”,而是:
- Lambda 多组件越来越复杂
- 运维投入越来越大
- T+1 不满足业务
- 真要全域实时,成本直接爆
方案里给出的结果强调了几个方向:存储成本节省、计算成本下降、性能提升、场景扩展等。对这类企业来说,把系统做成“少组件、好维护、成本线性可控”,往往比追求某个指标快一点更重要。
写在最后:如果你要从“BI支撑”走向“AI驱动”,建议先做三件小事
我比较推荐的节奏是“先小步跑通”,别一上来大拆大建:
- 选 1~2 条最关键链路(实验/增长/风控/推荐等),把全量重算改成增量化,先把新鲜度做出来。
- 把 Catalog、权限、口径这些治理要素统一起来,至少让数据资产“可发现、可解释、可复现”。
- 选一个能闭环的 AI 场景(对话式分析、运营 Copilot、知识问答等),用 Data Agent 把流程跑起来,而不是只做Demo。
等你这三件事跑顺了,再谈“统一智能基座”,就不是概念了