Apache Doris + SelectDB:定义 AI 时代,实时分析的三大范式

简介: 我们正处数据与智能深度耦合时代,AI能力边界取决于实时数据获取速度与精度。Apache Doris是为实时而生的统一分析引擎,支持秒级更新、亚秒查询、多模数据(含向量)、AI增强(RAG/Embedding)及存算分离,大幅降本增效。SelectDB提供全托管云服务,助力企业实现内部分析、客户洞察与AI代理三大实时范式。

我们正处在一个数据与智能深度耦合的时代。当生成式 AI 重构着人机交互的边界,当大模型开始渗透每一个业务环节,一个根本性问题浮出水面:AI 究竟能跑多快、多准,这取决于它能多快、多准地获取实时数据

这正是我们今天强调实时分析的底层逻辑。它不再是加分项,而是企业在数字经济中生存与成功的必需品。实时分析的价值并非孤立存在,它紧密围绕三大核心驱动力,重塑着企业的竞争壁垒

  • 即时决策与快速响应:这是最直观、也最迫切的需求。在秒级定义胜负的市场中,企业必须在数据产生后的几秒钟内,从最新数据中提炼出可执行的洞察。数据的新鲜度,直接决定商业决策的时效性与准确性。
  • 卓越的客户体验:实时分析让我们能基于用户当下的行为,即刻提供超个性化的服务。当系统能够毫秒级感知客户意图并做出响应,这种体验便成为提升客户忠诚度、构建品牌粘性的战略武器。
  • AI 增强分析:这是面向未来的战略驱动力。实时分析不仅服务于人,更服务于新一代 AI 代理、推荐系统和自动化工作流。可以说,AI 的能力边界,最终取决于它能多快、多准确地获取实时数据。

Apache Doris:为实时而生的统一引擎

Apache Doris 并非简单地将多种能力堆砌,而是从底层开始,为应对上述三大范式的核心挑战而设计,为不同场景提供了坚实支撑。

  1. 实时数据更新与低延迟

    • LSM-Tree 存储引擎:专为高写入和快速更新设计,结合无锁冲突解决机制,实现数据从产生到可查的秒级延迟。

    • Unique Key 的 Upsert 能力:支持行级实时更新插入,彻底取代耗时数小时的批量 ETL,保证业务数据毫秒级同步。

  2. 极速查询与高并发处理

    • MPP 架构:计算节点分布式并行执行,性能随节点数线性扩展,轻松应对 PB 级数据。

    • CBO 优化器:基于成本模型生成最优查询计划,确保复杂查询的高效执行。

    • 分区与分桶裁剪:从物理层面大幅减少数据扫描量。

    • 运行时过滤(Runtime Filter):在 Join 执行中动态过滤数据,极大加速大规模多表关联查询。

    • 多样化索引:包括倒排索引、Bloom Filter、Bitmap 索引等,让全文检索与多维过滤达到极致。

      • 物化视图与多级缓存:预计算加速查询,缓存热数据降低延迟。
  3. 弹性架构与工作负载隔离

    • 存算分离:计算与存储独立弹性伸缩,资源利用率最大化。

    • 工作负载管理:通过资源组、工作负载组将 BI 报表、ETL 作业、即席查询有效隔离,确保高优先级任务稳定运行。

  4. 多模数据分析与可观测性

    • 多模数据支持:原生支持结构化数据、半结构化数据、文本、向量数据(自 4.0 起);支持 Map、Array、Bitmap 等复杂数据类型。其中,Variant 数据类型便于灵活接入与处理 JSON 数据;相较 JSONB 或文本模式具备更高压缩率,并可通过内部列展开等机制显著提升查询性能。
    • 生态集成:Doris 可与 Logstash Collector 集成实现数据直写;支持通过 Kibana 可视化 Doris 内的观测数据;同时支持 OpenTelemetry 等开放 Telemetry Exporter 直接写入 Doris。
  5. 极致成本效益

    • 超高存储压缩率:通过 ZSTD 压缩算法、智能编码优化及数据页大小调整,相同数据集的压缩率可提升 48% 以上,大幅降低存储成本。与 Elasticsearch 相比,存储空间占用可降低 50%-70%。

    • 存算分离降本:计算与存储解耦后,综合成本较存算一体模式可降低超 90%。数据仅需在低成本对象存储中保存单副本,热数据缓存于高性能本地盘,实现存储成本与性能的最佳平衡。

    • 统一引擎简化架构:支持日志、检索、分析等多种负载,帮助企业替换 Elasticsearch、ClickHouse、Snowflake 等多套系统,消除数据冗余,降低综合运维成本。

  6. AI 增强能力

    • 检索与分析:结合向量索引、关键词检索与语义检索,相较单一向量搜索提供更准确的结果:关键词检索保障召回准确性,向量检索保障语义关联性,两者结合可获得更高质量的检索结果。

    • 内置大模型函数:自 Doris 4.0 起集成并支持多类大模型函数,包括 Embedding、相似度计算与模型推理等。这意味着数据无需出库,可在入库或库内直接完成特征提取与模型应用,从而显著降低数据移动与维护成本。

实时分析的三大范式

实时分析的三大范式.png

范式 1:面向内部的分析

  1. 面向内部的分析是公司监控运营、绩效和决策的核心系统。其价值演进正经历一场质变:从回答“发生了什么”(描述性分析),跨越到回答“我们应该做什么”(规范性分析)。

范式 1:面向内部的分析.png

通过 Apache Doris 极速的即席查询毫秒级数据同步,让一线团队基于最新数据动态调整策略。而原生支持的高级分析功能(如窗口函数、时序分析)则直接将数据转化为可执行的行动建议,帮助企业在复杂多变的业务中抢占先机。

典型业务场景

Apache Doris 所支持的内部业务场景几乎覆盖了企业核心价值链,并深入众多行业:从金融的市场数据分析和风险控制,到电商零售的实时库存管理;从外卖打车的订单追踪和热力图监控,到媒体社交的用户参与度分析;再到网络安全流量分析、供应链实时路线调整、物联网传感器数据处理……有实时数据分析需求的地方,就有 Doris 的身影。

典型场景可归纳为以下几类

  • BI 与实时仪表板:以 Doris 高并发、低延迟的聚合查询,驱动运营、销售、财务等部门的实时监控与决策。确保各级部门看到同一份最新数据。例如在电商大促中,销售团队可秒级查看 GMV、转化率与库存变化,并进行动态调整预算投入。
  • 用户行为与产品分析:帮助产品团队跨维度分析用户点击、留存和转化漏斗,快速迭代产品功能。可通过 Doris 实时仪表盘立即看到各步骤流失率;若异常升高,可秒级回溯用户行为日志,实现从问题发现到根因定位的分钟级闭环。
  • 广告技术与推荐分析:实时聚合广告曝光、点击与转化数据,分钟级捕获新素材效果。若点击率低于预期,系统可自动停止投放避免预算浪费;若转化率提升,则动态增加预算,实现收益最大化。
  • 可观测性与日志分析:依托高性能倒排索引与向量化引擎,秒级别完成 TB 级日志的全文检索与运维分析。当服务报错,可实时关联多个服务的日志追踪 ID,快速定位到具体代码行与数据库操作,显著缩短故障平均恢复时间(MTTR),为 AIOps 奠定基础。
  • 欺诈与风险分析:在金融风控中,Doris 实时获取交易记录、登录 IP、设备指纹等多源数据,在百毫秒内完成多维关联查询。系统即时生成风险评估,高于阈值则实时拦截交易,有效防止欺诈。
  • 数据科学与特征聚合:Doris 为机器学习工作流提供快速特征计算,支持融合历史(如数天活跃数据)与实时(如分钟级操作频率)特征。Doris 支持快速增补特征,无需重算全量数据,大幅提升特征工程效率,加速模型构建与迭代。

客户声音

团队使用 SelectDB 进行电芯性能追溯,通过条形码完成追溯链路。该场景涉及多达 10 张表的复杂 JOIN,大表数据量可达 100 亿级。利用 Doris 的倒排索引及相关优化,查询性能相较原系统提升约 10 倍,显著提升供应链效率。

—— 比亚迪

面对大规模物流数据带来的分析挑战,Doris 的查询性能提升约 5–10 倍,并发能力翻倍;在仅使用约 1/3 资源的情况下,90% 的分析任务耗时由 10 分钟降至 1 分钟以内。这使申通快递能够更快发现并解决物流延迟问题。

—— 申通快递

Doris 在小米已广泛应用于广告增长分析、Dashboard 等场景,其中最大集群规模已扩展至 100 个节点,数据量达到 PB 级,稳定支撑核心业务。

—— 小米

范式 2:面向客户的分析

面向客户的分析,即通过服务化方式将实时洞察直接交付给客户,使其能自主感知业务状态与价值。这是 SaaS 平台实现数据能力产品化、驱动客户粘性增长的关键技术路径。

在该范式下,Doris 的实时分析优势直接转化为三大价值:提升客户体验与忠诚度、驱动营收增长,并构筑稳固的客户信任关系

典型业务场景

  • SaaS 分析仪表板:以营销自动化 SaaS 平台为例,其基于 Doris 构建实时仪表板,为数千家企业提供秒级刷新的邮件效果数据。相比过去 T+1 的延迟,如今可实时监测异常并快速响应,支撑高并发查询的同时,显著提升了客户数据体验与平台粘性。
  • 物联网设备监控:工业 IoT 平台基于 Doris 实时监控设备状态(温度、振动、能耗),每秒处理数百万传感器数据,支持多维下钻。异常时秒级告警,可追溯历史趋势并远程干预,有效避免生产事故。
  • 金融科技账户分析:一家金融科技公司基于 Doris 支持商户实时查询交易流水、对账单及风险分析,承载上万 QPS 高并发,确保余额与明细秒级刷新。风控拦截大额交易后,商户即时接收通知并在线处理,显著提升资金流转效率,强化平台竞争力。

客户声音

作为 Doris 的发源地,百度在其广告业务中主要用于支撑广告主仪表盘,使广告主可实时查看投放效果与消费数据。在该场景下,Doris 可承载上万 QPS 的查询,并实现亚秒级的数据新鲜度。

—— 百度

京东使用 Doris 替换 Flink 窗口计算系统,可处理每日约 100 亿行数据,并提供约 1 万 QPS 的查询能力,最低查询延迟约 150 毫秒。这表明在部分场景下,Doris 可通过标准 SQL 接口替代较复杂的流计算框架,帮助用户大幅度简化技术栈并提升数据开发效率。

—— 京东

范式 3:面向智能代理的分析

随着大语言模型和生成式 AI 的爆发,AI 代理(Agent)正从概念走向大规模落地。从智能客服、代码助手到自动化运维代理,它们正在重塑人与系统的交互方式。然而,AI 代理的智能边界,不仅取决于大模型本身,更取决于其感知环境、记忆历史与调用知识的能力。这正是实时分析的核心价值所在

在这一范式下,Apache Doris 作为实时数据底座,深度赋能每一个智能环节

  • 实时感知:依托 Doris 亚秒级的数据摄入与更新能力,代理可基于最新数据做出响应。
  • 记忆及知识增强:Doris 统一支持结构化数据、文本与向量,内置倒排索引与向量检索能力,使代理既能通过关键词检索历史交互(情景记忆),也能通过语义搜索企业知识库(语义记忆),在 RAG 链路中实现高效混合查询,从源头减少模型幻觉。
  • Agent 可观测:Doris 以高性价比的日志处理能力(10 倍性价比于 Elasticsearch)支撑代理的可观测性,通过调用链追踪、行为指标与错误日志的实时分析,持续驱动代理行为优化。

典型业务场景

  • 记忆场景:包括语义记忆与情景记忆。Doris 可存储文档与历史数据,作为知识库通过 RAG 方式检索并提供给模型。Doris 可存储 Agent 的历史行为经验与决策记录,用于改进后续决策,优化未来行为。
  • 可观测场景:代理的大规模部署,运维团队需要监控的不再只是服务器指标,还有代理的“行为健康”。不仅适用于 Agent 可观测,在整体可观测场景中同样具备显著优势。

客户声音

  1. 记忆场景

某企业建设 AI 客服代理。当客户询问“上个月发布的 3.0 版本中,向量搜索性能优化了多少,4.0 版本又如何”时,Agent 会先在 Doris 的情景记忆中检索该客户历史交互记录以获取上下文。随后 Agent 在 Doris 的语义记忆(知识库)中进行混合搜索,结合关键词检索(如“Doris 4.0”“向量搜索”“性能优化”)与向量检索(匹配语义相近但措辞不同的内部文档)。最终,Doris 将匹配到的文档及相关结构化数据返回给 Agent,Agent 基于这些信息将多模态融合数据提供给大模型,从而获得更准确的结果。

  1. AI 的可观测性

国内上市大模型企业 MiniMax 日志系统从 Loki 迁移至阿里云数据库 SelectDB 版,用于管理大规模日志数据,同时保障高可用性与查询性能,并获得更优的成本收益。

—— MiniMax

腾讯音乐使用 Doris 作为统一的 OLAP 引擎,替换 ClickHouse 与 Elasticsearch,并在 Doris 上承载 ChatBI 业务,使 Doris 成为更灵活的智能数据服务平台。

—— 腾讯音乐

Doris 的向量索引能力有较大部分由字节跳动贡献。字节跳动基于 Apache Doris 在内部构建了 PB 级向量存储与混合检索服务,主要对外提供 RAG 能力。

—— 字节跳动

结束语

从内部运营优化,到客户体验提升,再到 AI 代理赋能,实时分析正从技术选项演变为企业生存的必备能力。它不再是单纯的数据处理速度竞赛,而是企业构建数据飞轮、实现智能决策的核心引擎。

Apache Doris 及其官方商业化版本 SelectDB,正是为这一时代需求而生。它们以极致的性能、丰富的场景覆盖和面向未来的 AI 增强能力,帮助企业将数据转化为即时行动,将洞察沉淀为竞争优势。

目录
相关文章
|
1月前
|
人工智能 监控 前端开发
大模型应用:基于安诊儿AntAngelMed模型+FastAPI构建慢病管理AI助手.86
本项目基于安诊儿AntAngelMed医疗大模型(临床一致率达88.9%),结合FastAPI后端与轻量前端,构建7×24小时慢病AI助手。支持糖尿病、高血压等居家咨询,提供专业、可读、结构化建议,并实时统计Token消耗,兼顾实用性与成本可控性。
357 2
|
6月前
|
SQL 数据可视化 关系型数据库
专为 Apache Doris 打造的可视化数据管理工具 SelectDB Studio
SelectDB Studio 提供 Desktop & Server 双版本,专注于为用户提供高效、便捷的可视化操作体验,帮助数据开发者、DBA 低门槛、高效率地对 Apache Doris 及其兼容数据库中的数据进行可视化开发和管理。
982 0
|
5月前
|
人工智能 自然语言处理 Apache
Apache Doris AI 能力揭秘(四):HSAP 一体化混合搜索架构全解
AI 时代正在重塑数据库的角色。过去,数据库主要为人类分析者提供报表与查询能力;而现在,越来越多的查询来自智能代理(Agent),它们会自动检索知识、过滤数据、组合多种信号,并将数据库作为“实时信息源”支撑推理与决策。
352 8
Apache Doris AI 能力揭秘(四):HSAP 一体化混合搜索架构全解
|
1月前
|
人工智能
阿里云产品三月刊来啦
企业 Agent 应用平台 AgentOne 正式公测,面向 AI 智能体的新一代操作系统 Agentic OS 发布
134 3
|
24天前
|
人工智能 安全 API
别让 AI Agent 按下数据库的”核按钮”—从 PocketOS 删库事件看 Agent 时代的数据安全新范式
2026年,PocketOS公司因AI智能体误删生产库引发行业警醒:当Agent替代人工操作数据库,传统安全体系全面失效。阿里云推出Agent DataGateway,构建身份可识别、权限可控制、行为可审计、风险可阻断的AI原生数据管控层,助力企业安全释放Agent数据能力。
356 0
|
2月前
|
网络协议 安全 测试技术
api工具apifox、apipost选择
Apifox 与 Apipost 各有侧重:Apifox 是面向中大型团队的一站式 API 全生命周期管理平台,强在协作、自动化与流程闭环;Apipost 则以多协议调试(gRPC/TCP/WebSocket)、离线能力及小团队友好性见长。选型需结合团队规模、协议需求与安全要求。(239字)
388 2
|
6月前
|
运维 安全 数据可视化
Doris MCP Server v0.6.0 正式发布
Doris MCP Server v0.6.0 重磅发布!全面升级为企业级认证与数据库管理系统,支持多租户隔离、Token绑定配置、热重载免重启、Web可视化管理。增强安全防护、连接池性能飞跃,助力多租户SaaS与高可用生产环境,平滑兼容旧版本,开启数据管理新时代。
346 2
|
SQL 存储 人工智能
Apache Doris在易车AI +实时湖仓技术架构的落地实践
易车基于Apache Doris构建湖仓一体架构,统一替换Druid、ClickHouse等近10种引擎,融合Paimon+Hive实现流批一体;支撑实时多维分析、用户画像与BI报表,并探索Doris+AI(ChatBI、Data Agent)智能应用,打造高效、实时、智能的数据底座。(239字)
69 1
|
1月前
|
人工智能 机器人 API
阿里云计算巢部署OpenClaw图文攻略|飞书集成+千问Qwen3.6-Plus配置+新手避坑指南
2026年,开源AI智能体框架OpenClaw(曾用名Clawdbot,被用户亲切称为“小龙虾”)已成为企业与个人搭建专属AI助手的首选方案。其核心优势在于支持自然语言指令理解、主动任务规划、多工具调用与多渠道消息接入,能实现7×24小时自动化办公、客户服务与内容处理。阿里云计算巢提供官方认证的OpenClaw部署模板,让新手无需掌握复杂运维知识,即可一键完成生产级环境搭建;搭配阿里云千问Qwen3.6-Plus大模型,可解锁超长上下文、深度逻辑推理与精准任务执行能力;集成飞书后,能无缝融入企业协作流程,实现群聊指令响应、自动化通知、文件处理等核心功能。
441 0
|
9月前
|
人工智能 自然语言处理 数据挖掘
Apache Doris 4.0 AI 能力揭秘(一):AI 函数之 LLM 函数介绍
在即将发布的 Apache Doris 4.0 版本中,我们正式引入了一系列 LLM 函数,将前沿的 AI 能力与日常的数据分析相结合,无论是精准提取文本信息,还是对评论进行情感分类,亦或生成精炼的文本摘要,皆可在数据库内部无缝完成。
635 0
Apache Doris 4.0 AI 能力揭秘(一):AI 函数之 LLM 函数介绍