阿里云消息队列Kafka版推出原生消息入湖能力,该功能依托Apache Iceberg与OSS Table Bucket深度集成,无需额外部署Spark、Flink、Kafka Connect等ETL计算集群,仅通过控制台简单配置,就能将Topic内实时数据流直接写入数据湖,构建“实时流处理+湖仓一体分析”端到端链路。该功能开启公测,后续将正式商业化落地,彻底解决传统流式入湖架构多集群、多任务、高运维的痛点,重构企业实时数据流转模式。
一、传统入湖架构痛点与原生方案革新
在湖仓一体普及背景下,大量企业采用Kafka承载实时事件,再通过ETL作业同步至数据湖,但传统链路存在多重成本与稳定性问题。每一条业务Topic都需要独立的Flink或Spark任务,多业务线会形成大量调度任务,配套监控、告警、资源调度体系同步膨胀;数据Schema分散在生产者代码、流计算任务、数据湖表三处,字段变更需要跨团队同步修改,极易出现数据错乱;小文件合并、快照清理、分区优化等隐性运维工作,持续消耗人力,整体形成多集群叠加的高额运维成本。
阿里云Kafka原生入湖架构将数据转换、写入逻辑内置在Broker内部,依靠内置Worker组件完成消息转Parquet、Schema自动适配、事务写入Iceberg表,全程零ETL代码、无需外部计算集群,整套链路收敛至Kafka单一集群,大幅缩减硬件、人力双重开销,数据新鲜度提升至分钟级,底层依托OSS Table Bucket提供十倍级读写性能优化。阿里云部署AI Agent:OpenClaw/Hermes Agent全网最简单,只需两步,详情👉访问阿里云OpenClaw/Hermes一键部署专题页面了解。








Token Plan Token最便宜/支持多模型切换:👉访问订阅阿里云百炼Token Plan AI大模型服务 。支持多模型切换,用于多模态模型灵活调用,实现多模型、多工具、多场景下的额度共享与统一管理,兼顾灵活性、稳定性与安全性,大幅降低企业使用大模型的门槛与成本。

二、四大核心原生入湖能力
1. 零ETL内置直达架构
整套转换链路内嵌Kafka Broker,摒弃外部流计算集群。生产者发送的消息经由协议层直达内置RecordProcessor转换引擎,自动完成序列化解析、格式转换,通过IcebergWriter直接写入OSS,全程无跨集群网络往返。系统严格遵循Exactly-once语义,保证消息不重复、不丢失。企业无需维护大批量流任务,每条Topic仅需控制台开关配置即可开启入湖,从“多套ETL作业”简化为平台原生能力。
2. 统一自动Schema自适应治理
深度联动Kafka Schema Registry实现元数据统一管控,生产者发送消息时系统自动校验字段规范。当业务发生字段新增、类型提升、可选化等兼容变更,引擎自动同步更新Iceberg表结构,无需人工修改表定义;若出现不兼容字段改动,系统会做安全拦截或兼容忽略处理,写入流程不中断。彻底解决多系统Schema不一致难题,打造唯一可信数据事实源,适配长期迭代的业务系统。
3. 双模写入覆盖全业务场景
提供Append追加、CDC变更两种写入模式,适配不同数据流类型:
Append模式面向日志、行为事件等仅新增数据场景,批量提交提升写入吞吐;
CDC模式适配数据库变更捕获场景,支持Upsert更新逻辑,用户指定主键字段后,系统依托Iceberg增量文件完成插入、更新、删除操作,无需全表重写。
同时支持原始归档、结构化展平两类转换策略,原生兼容Avro、Protobuf、字符串多种消息格式,满足日志归档、数据库同步等差异化需求。
4. 智能分区+自动化存储运维
支持多维度自定义分区策略,可按年、月、日、小时、地区、哈希桶、字符串截断等维度组合分区,查询引擎执行分析时自动分区裁剪,规避全表扫描,大幅提升查询效率。底层依托OSS Table Bucket自动执行小文件合并、过期快照清理、孤儿文件回收,所有运维操作在存储后台完成,不占用Kafka计算资源,企业无需投入人力维护数据湖文件治理工作。
三、底层OSS Table Bucket性能优势
原生入湖能力依托OSS Table Bucket作为存储底座,该存储产品在标准对象存储之上原生兼容Iceberg完整表语义,支持REST与S3两类标准接口。同等数据规模下,自建Iceberg架构读写吞吐量仅为Table Bucket的十分之一,且可无缝接入OSS带宽加速组件,应对大模型训练、实时分析等高并发读取场景。Spark、Trino、Flink、StarRocks等主流分析引擎可直接读取同一份湖表,无需多副本数据复制,消除烟囱式数据架构。
四、五大典型行业落地场景
场景1:电商大促实时经营分析
电商活动期间订单、支付、物流消息海量涌入,传统架构需要数十套Flink任务处理不同业务Topic,字段变更协调成本极高。开启原生入湖后所有业务线仅需控制台配置,流计算任务全部取消,经营看板数据刷新从小时级缩短至分钟级,OSS自动治理小文件,查询性能提升十倍,数据团队可专注指标建模,无需维护ETL集群。
场景2:金融数据库CDC实时同步
银行、证券交易库变更流通过Debezium推送至Kafka,传统三层链路易出现数据不一致。采用CDC写入模式,系统自动基于主键完成更新操作,Iceberg事务机制保障数据精准一致;字段新增自动同步湖表,无需人工干预,风控、监管报表数据实时可用,故障修复窗口大幅缩短。
场景3:车联网海量传感器数据
车载电池、驾驶行为实时数据流汇聚Kafka,传统Spark集群清洗落盘存在高延迟、小文件堆积问题。原生入湖直接按车型、日期多维分区存入OSS,后台自动合并碎片文件,结构化数据可直接输入机器学习框架训练故障预警模型,模型迭代周期从周缩短至天。
场景4:AI多模态训练数据管理
路测图片、视频存至OSS对象桶,向量索引存入向量桶,Kafka采集标注、传感器元数据通过入湖能力写入Table Bucket。三类数据共用一套权限、审计体系,训练样本筛选、版本回溯在同一平台完成,数据准备效率大幅提升。
场景5:日志安全长期溯源
系统访问、API审计日志每日百亿级产生,传统定时迁移日志易丢失关键记录。Kafka直接入湖长期结构化存储,借助Iceberg时间旅行能力,任意历史时段数据均可通过标准SQL检索,安全事件调查实现分钟级跨周期溯源。
五、整体价值与发展方向
Kafka原生消息入湖能力本质是数据链路架构减法,把分散的消息、计算、存储三层收敛为“消息平台直达数据湖”一体化链路,从硬件集群、人力运维、数据延迟三个维度降低企业实时分析成本。平台后续将持续丰富数据转换能力,打通更多计算、治理工具,完善AI场景适配能力,持续优化Iceberg生态协同,为企业提供从实时采集、湖仓分析到AI训练的一站式数据基础设施。公测阶段用户可免费体验完整入湖功能,有日志同步、数据库CDC、IoT采集、AI训练等场景需求可参与试用并反馈方案优化建议。