ClickHouse不止于快:它在AI领域悄悄做了这些大事!

本文涉及的产品
阿里云百炼推荐规格 ADB PostgreSQL,4核16GB 100GB 1个月
云原生数据仓库AnalyticDB MySQL版,基础版 8ACU 100GB 1个月
简介: 在第16届中国数据库技术大会(DTCC2025)大会上,ClickHouse Inc技术总监王鹏程,根据自己和团队在ClickHouse的技术实践经历,发表了题为《ClickHouse在AI领域的进展和应用》的主题演讲,分享了ClickHouse在现代数据架构中的创新应用,特别是在向量搜索、智能代理分析、机器学习数据管理等关键领域的突破。本文由ITPUB整理,经王鹏程老师授权发布。以下为演讲实录。

技术革新与生态扩展:从高性能分析到统一数据平台

ClickHouse的发展历程始于2009年,当时第一个原型(prototype)正式完成。在随后的多年中,ClickHouse逐步演进,但始终以一个“纯野生”的开源项目形态存在,吸引了超过1500名贡献者(contributors)——这个数字在开源项目中非常罕见,也充分体现了其社区活力和项目成熟度。

直到2021年,ClickHouse Inc公司正式成立,标志着项目从社区主导走向商业化的重要转折。在此之前,ClickHouse完全依靠开源社区推动,积累了强大的技术底蕴和用户基础。公司成立后,我们开始提供正式的SaaS服务,初期主要聚焦海外市场。值得一提的是,ClickHouse本身是一家美国公司,因此“出海”对我们而言更像是回归本土市场。目前,我们也在中国积极拓展,并与阿里巴巴合作推进ClickHouse Cloud服务。此外,ClickHouse Cloud已在海外三大云平台(AWS、GCP、Azure)全面上线。

在融资方面,截至2025年5月,我们完成了3.5亿美元的融资,公司估值达到约63.5亿美元,这也成为ClickHouse发展历程中的一个重要里程碑。

近年来,数据库领域呈现出一个显著趋势:用户不再满足于单一功能的数据库,而是希望将数据统一存储,并通过一个平台进行多种类型数据的查询和分析。ClickHouse积极响应这一趋势。在JSON支持上进行了彻底的重构,不再是简单的文本处理,而是动态地为JSON的键创建索引,使其查询性能堪比关系型列式存储,这也让我们在知名的JSONBench基准测试中取得了领先的成绩。

此外,ClickHouse的强大之处在于其“万物皆可为表”的生态能力。在湖仓一体的趋势之下支持包括Iceberg、DeltaLake、Hudi在内的多种开放表格式,并能直接查询存储在S3、HDFS、甚至本地文件系统上的各种格式(如Parquet、CSV)的数据,无需预先导入。为了进一步降低使用门槛,我做了一个名为“chDB”的开源项目——一个嵌入式的ClickHouse引擎。用户无需安装部署,chDB可以作为Python的一个模块import引入,无缝使用,不需要安装任何依赖,可以直接python中通过chDB查询文件乃至pandas的DataFrame。据测算,chDB的速度比pandas要快60多倍,这为数据科学家进行数据探索和准备提供了极大的便利。

ClickHouse Cloud:云原生架构与全球扩展

作为ClickHouse公司的主要营收业务,ClickHouse Cloud代表了我们从开源项目向企业级云服务迈进的关键一步,开源和云计算二者是一个互相推进的模式。尽管ClickHouse起源于开源社区,但通过云服务的形式,我们正在全球范围内推动高性能数据分析的普及。除非遇到像特斯拉这样极具规模且坚持私有化部署的超大型客户,我们通常以SaaS模式提供服务,这也使我们能更专注于产品迭代与用户体验的提升。

ClickHouse作为一家源自美国的公司,自诞生之初就深刻理解全球市场对安全与合规的严苛要求。ClickHouse Cloud已通过了包括SOC2TypeII、ISO27001、GDPR、HIPAA等在内的多项顶级权威认证。这些认证并非一纸空文,而是贯穿于我们产品设计、开发流程、基础设施运维和数据处理全生命周期的严格实践。这意味着,无论是金融、医疗还是物联网领域的企业,在面向全球用户、处理敏感数据时,ClickHouse Cloud都能提供从物理安全到数据隐私的全面保障,为客户业务出海扫清合规障碍。

ClickHouse Cloud与开源版本最大的区别在于其存算分离的架构设计。起初,作为一个崇尚性能极致的数据库系统,存算分离似乎与“数据离计算越近越好”的直觉相悖。然而,基于AWS S3等高吞吐、低延迟的对象存储技术,存算分离不仅成为可能,还带来了显著的弹性与成本优势。ClickHouse Cloud将数据统一存储在对象存储中,通过元数据服务器(MetadataServer)和多个计算节点(ComputeNodes)实现高效查询,用户几乎感知不到数据位置带来的延迟。

更进一步,我们还实现了“计算-计算分离”(Compute-Compute Separation),将不同类型的负载——如写入合并(Merge)、即席查询(AD-HOC)和面向客户的查询(Customer-facing)——分别调度至不同的服务节点,确保各类任务互不干扰,保障系统整体的稳定与高性能。

动态计算扩缩容(Dynamic Compute Scaling)是云服务的另一大优势。无论是增加副本数还是提升单节点配置,ClickHouse Cloud都能实现秒级响应。部分弹性能力得益于与阿里云等合作伙伴的技术整合,例如通过容器级别的资源调整实现无缝扩展。

在生态集成方面,ClickHouseCloudClickHouse Cloud支持多种数据接入方式,包括Kafka、OpenTelemetry等流式与可观测性数据管道,并通过ClickPipes组件实现对各类数据源的无缝对接。近期我们还加强了对DeltaLake的支持,进一步兼容Databricks、Snowflake和AWSGlue等主流数据平台,真正实现了“万物皆可查”的统一数据平台愿景。

全球客户实践:赋能AI与实时分析场景

ClickHouse作为一款高性能的列式数据库,其核心定位始终是实时分析。在全球范围内,尤其是在人工智能与机器学习(AI/ML)领域,ClickHouse已被多家领先企业广泛应用于实际业务场景中,支撑起高并发、低延迟的数据处理需求。

在实时查询方面,我们开发了工具StockHouse,用户可通过该工具对最新公司股价等进行实时分析。

ClickHouse的客户覆盖电商、媒体、金融、汽车等多个行业。国际知名客户包括eBay、沃尔玛、Instacart、Vantage、highlight.io、exabeam、德意志银行等。

以Weights&Biases(W&B)为例,这家成立于2018年的人工智能公司专注于机器学习样本管理与可视化分析。其旗舰项目ONE DB集成了数据探索、分布分析、多模态数据处理等功能,并与Notebook深度结合,为用户提供便捷的数据分析体验。W&B在生产环境中使用ClickHouse进行大规模监控和训练集存储,其典型架构还包括Redis和MySQL,体现了ClickHouse在混合架构中的灵活性与扩展性。

OpenAI则依托ClickHouse构建了可观测性平台,处理每日PB级的日志数据。其架构包含约90个分片,通过负载均衡器将来自Kubernetes集群(经FluentBit收集)的数据写入ClickHouse。热数据(两天内)存储于分片盘中,配备两个副本;冷数据则自动迁移至BlobStorage,实现成本与性能的平衡。

OpenAI在发布GPT-4o图像生成功能后,因“吉卜力动画风格”头像生成功能爆火,流量急剧上升,CPU使用率一度接近100%。工程师通过ClickHouse快速定位到BloomFilter中一个add函数的性能瓶颈,并通过极小的代码改动(将取模运算优化为位操作与哈希组合)显著降低CPU使用率,保障了系统稳定。这一优化虽小,却体现了ClickHouse代码的可维护性与高性能设计。

在AI/ML全链路中,ClickHouse广泛应用于数据准备与探索、离线与在线特征存储、模型训练与推理、向量存储及系统可观测性等环节。例如:

  • W&B在数据准备阶段使用ClickHouse;
  • Poolside和Ccognitiv将其作为离线和在线特征存储,利用物化视图构建大宽表,适配机器学习特征工程需求;
  • LangDB在模型推理环节集成ClickHouse;
  • ramp则将其用作向量数据库,尽管这一能力尚未大规模宣传。

面向智能代理(Agent)的AI原生未来

我们正迈入一个由AI智能体(Agent)驱动的时代。这为数据分析带来了新的范式转变:未来的查询可能不再由专业的分析师手动编写SQL,而是由AI Agent自动生成和执行。这将导致数据仓库的查询量和复杂度呈指数级增长。

为应对这一趋势,ClickHouse推出了MCP(Model Context Protocol)Server,实现与AI Agent的自然语言交互。用户不再需要编写复杂的SQL语句,而是通过提示词(prompt)直接表达分析意图。MCP Server通过三个核心函数——list_database、list_table 和 rent_query(即运行查询),为Agent提供结构化访问能力。现在,用户只需用自然语言提出问题(如“分析一下伦敦的房价”),Agent就能自动发现相关数据表、理解结构、编写并执行SQL,最终返回洞察结果。  

这一功能已在 llm.ClickHouse.com 上线,用户可免费体验基于自然语言的数据查询。该平台托管了包括房价、经济指标在内的多个公开数据集,用户无需本地部署即可快速构建分析应用。尽管这项服务带来了可观的模型调用成本,但其展示出的交互体验与技术前景,已为ClickHouse在资本市场赢得高度认可。

在典型客户实践中,特斯拉基于ClickHouse构建了高性能实时监控系统,通过OpenTelemetry采集数据,经Kafka接入,由Comet ETL服务转换为SQL并写入ClickHouse,支撑每秒十亿行级别的数据吞吐,满足其大规模监控与告警需求。其测试数据规模达到“亿亿”行级,充分验证了ClickHouse在极端负载下的稳定性与扩展性。

整体架构体现“能用现成服务则不做自研”的理念,以ClickHouse为核心,配合MCP协议与LibreChat等工具快速集成,实现对多源数据的统一接入与智能查询。

ClickHouse for AI/ML 的布局

在数据准备与探索阶段,ClickHouse 提供了多样化的部署与使用方式。用户可通过 clickhouse-local、clickhouse-server 乃至嵌入式引擎 chDB,灵活构建数据探索环境。它不仅可作为高效的 Feature Store 和 Vector Store,还支持用户定义函数(UDF),甚至允许将推理函数封装为UDF在数据库内直接执行,极大简化了AI与数据的集成流程。

向量检索是AI应用中的关键能力。早期数据库常将向量视作普通列处理,导致查询效率低下、开发体验差,用户需手动编写余弦相似度等复杂函数。如今,ClickHouse 已将向量当做indexhnsw HNSW做L2Distance,然后直接当成index查询值用,用户无需编写复杂SQL即可实现高效相似性查询。未来,随着SDK的进一步完善,向量计算还将在插入时自动完成,并支持 BFloat16 及 int8 量化,进一步降低存储与计算开销。

总结来说,面向Agent时代的数据引擎需具备多项核心能力。首先,必须是高性能实时引擎;用户的耐心有限,T+1的延迟已无法满足市场需求。其次,需支持基于上下文的分析(Analytics in context),能够理解并组织用户问题中的上下文,甚至实现记忆机制;再次是实时数据,不想T+1;最后,统一数据访问(Unified Data Access)也至关重要如RAG需同时支持向量检索、全文搜索和时间序列查询,一旦数据分散于多处,整个架构将变得复杂且难以维护。

为集中展示我们在AI方面的成果,我们正式推出 ClickHouse.ai,该平台整合了相关功能、案例与资源,欢迎开发者与数据科学家访问探索,体验ClickHouse为智能应用带来的强大助力。

欢迎浏览ClickHouse官网www.clickhouse.com或者关注微信公众号‘ClickHouseInc’获得更多更快的产品更新信息。


ClickHouse企业版

ClickHouse企业版已正式上线阿里云,这是一款基于ClickHouse开源技术打造的新一代云原生Serverless实时数据仓库产品。阿里云ClickHouse企业版依托存算分离的云原生架构,在显著提升查询性能与执行效率的同时,支持更高效的计算与存储资源管理,降低了大规模数据存储场景下的存储成本、水平扩缩容等运维场景对业务的影响时间和工作量,并通过Serverless能力提升了业务在突发高峰下的稳定性、降低了业务的闲时资源浪费。

此外,阿里云ClickHouse企业版还支持跨可用区(AZ)高可用部署,并集成低成本S3类存储,确保数据的可靠性与经济性,帮助企业从容应对数据量快速增长带来的存储成本压力 。

诚邀您参与100元指定规格测一个月的活动,体验在ClickHouse企业版超低存储成本优势下的查询性能表现!首次购买9500CCU*H的计算包,以及首次购买1个月450G及以下规格的存储包,均可享 0.4折的超优惠价格!计算和存储资源组合购买不超过 99.58 元!

立即体验阿里云ClickHouse企业版,请扫描下方二维码:

image.png

相关文章
|
2月前
|
存储 自然语言处理 分布式计算
Apache Doris 3.1 正式发布:半结构化分析全面升级,湖仓一体能力再跃新高
Apache Doris 3.1 正式发布!全面升级半结构化分析,支持 VARIANT 稀疏列与模板化 Schema,提升湖仓一体能力,增强 Iceberg/Paimon 集成,优化存储引擎与查询性能,助力高效数据分析。
471 4
Apache Doris 3.1 正式发布:半结构化分析全面升级,湖仓一体能力再跃新高
|
4月前
|
JSON 关系型数据库 Apache
十亿 JSON 秒级响应:Apache Doris vs ClickHouse,Elasticsearch,PostgreSQL
JSONBench 是一个为 JSON 数据而生的数据分析 Benchmark,在默认设置下,Doris 的性能表现是 Elasticsearch 的 2 倍,是 PostgreSQL 的 80 倍。调优后,Doris 查询整体耗时降低了 74%,对比原榜单第一的 ClickHouse 产品实现了 39% 的领先优势。本文详细描述了调优思路与 Doris 调优前后的性能表现,欢迎阅读了解~
710 0
十亿 JSON 秒级响应:Apache Doris vs ClickHouse,Elasticsearch,PostgreSQL
|
3月前
|
存储 数据挖掘 Apache
浩瀚深度:从 ClickHouse 到 Doris, 支撑单表 13PB、534 万亿行的超大规模数据分析场景
浩瀚深度旗下企业级大数据平台选择 Apache Doris 作为核心数据库解决方案,目前已在全国范围内十余个生产环境中稳步运行,其中最大规模集群部署于 117 个高性能服务器节点,单表原始数据量超 13PB,行数突破 534 万亿,日均导入数据约 145TB,节假日峰值达 158TB,是目前已知国内最大单表。
919 10
浩瀚深度:从 ClickHouse 到 Doris, 支撑单表 13PB、534 万亿行的超大规模数据分析场景
|
SQL 运维 监控
Clickhouse运维之你最需要知道的SQL总结
Clickhouse运维之你最需要知道的SQL总结
Clickhouse运维之你最需要知道的SQL总结
|
1月前
|
存储 SQL 消息中间件
从 ClickHouse 到 StarRocks 存算分离: 携程 UBT 架构升级实践
查询性能实现从秒级到毫秒级的跨越式提升
|
3月前
|
存储 数据挖掘 BI
2-5 倍性能提升,30% 成本降低,阿里云 SelectDB 存算分离架构助力波司登集团实现降本增效
波司登集团升级大数据架构,采用阿里云数据库 SelectDB 版,实现资源隔离与弹性扩缩容,查询性能提升 2-5 倍,总体成本降低 30% 以上,效率提升 30%,助力销售旺季高效运营。
294 9
|
5月前
|
人工智能 OLAP 数据处理
解锁数仓内AI流水线,AnalyticDB Ray基于多模ETL+ML提效开发与运维
AnalyticDB Ray 是AnalyticDB MySQL 推出的全托管Ray服务,基于开源 Ray 的丰富生态,经过多模态处理、具身智能、搜索推荐、金融风控等场景的锤炼,对Ray内核和服务能力进行了全栈增强。
|
4月前
|
存储 运维 数据挖掘
革新智能驾驶数据挖掘检索效率!某国内新能源汽车未来出行领导者选择阿里云Milvus构建多模态检索引擎
在智能驾驶技术快速发展中,数据成为驱动算法进步的核心。某新能源汽车领军企业基于阿里云Milvus向量数据库构建智能驾驶数据挖掘平台,利用其高性能、可扩展的相似性检索服务,解决了大规模向量数据检索瓶颈问题,显著降低20%以上成本,缩短模型迭代周期,实现从数据采集到场景挖掘的智能化闭环,加速智能驾驶落地应用。
革新智能驾驶数据挖掘检索效率!某国内新能源汽车未来出行领导者选择阿里云Milvus构建多模态检索引擎
|
21天前
|
SQL 人工智能 BI
AI 在数据库操作中的各类应用场景、方案与实践指南
本文系统梳理AI在数据库操作中的8大核心场景,涵盖智能查询生成、性能优化、数据质量监控与自动化报表等,结合SQL实例与最佳实践,展现AI如何赋能数据库开发,提升效率与洞察力。
160 1
AI 在数据库操作中的各类应用场景、方案与实践指南
|
3月前
|
人工智能 运维 BI
Top5 主流工单管理系统全对比(2025 版):功能、价格、行业适配性详解
在数字化浪潮推动下,工单管理系统已成为企业提升运营效率、优化客户体验的关键工具。本文解析其核心价值与选型要点,并对合力亿捷、Zendesk、Freshdesk、Jira Service Management、钉钉宜搭五大主流系统进行多维度对比,涵盖功能、价格、行业适配性等,助力企业精准选型,加速数字化转型进程。

热门文章

最新文章

下一篇
oss云网关配置