Apache Doris 4.0.2 版本正式发布

本文涉及的产品
RDS MySQL DuckDB 分析主实例,集群系列 4核8GB
RDS AI 助手,专业版
简介: 亲爱的社区小伙伴们,Apache Doris 4.0.2 版本已正式发布。此版本新增了在 AI & Search、函数、物化视图、Lakehouse 等方面的功能,并同步进行了多项优化改进及问题修复,欢迎下载体验!

亲爱的社区小伙伴们,Apache Doris 4.0.2 版本已正式发布。此版本新增了在 AI & Search、函数、物化视图、Lakehouse 等方面的功能,并同步进行了多项优化改进及问题修复,欢迎下载体验!

新增功能

AI & Search

  • 倒排索引支持自定义分析器,包含拼音分词器和拼音过滤器
  • 倒排索引的搜索函数新增多位置短语查询(PhraseQuery)支持
  • 新增 ANN 索引仅扫描能力

函数

  • 新增 sem 聚合函数
  • 支持源自 Hive 的 factorial简单 SQL 函数
  • 部分正则表达式函数新增零宽断言支持
  • JSON 类型支持 GROUP BY 和 DISTINCT 操作
  • 新增 add/sub_time 时间函数
  • 新增 deduplicate_map 函数

物化视图

  • 非分区基表数据变更时,物化视图仍可参与透明查询重写
  • 创建 MTMV 支持基于视图创建
  • MTMV 刷新支持多 PCT 表
  • 物化视图包含窗口函数时,支持窗口函数重写

Lakehouse

优化改进

  • 优化 FROM_UNIXTIME 函数性能
  • 移除 PartitionKey 比较中的 castTo转换操作,提升分区处理效率
  • 降低 Catalog 中 Column 类的内存占用
  • Ann 索引训练前累积多个小批次数据,提升训练效率
  • 升级 Hadoop 依赖到 3.4.2 版本
  • 优化 FE 和 BE 的优雅退出机制,降低节点退出对查询的影响
  • 优化对包含大量分区的 hive 表的写入的效率
  • 优化 Paimon 表 Split 占用内存过大的问题
  • 优化对 Parquet RLE_DICTIONARY 编码的读取效率
  • 优化 FE 和 BE 的优雅退出机制,降低节点退出对查询的影响

问题修复

查询

  • 修复输入为 null 时 utc_time 函数返回结果错误的问题
  • 修复 UNION ALL 结合 TVF 时抛出异常的问题
  • 修复唯一键表创建物化视图时,WHERE 子句包含非键列的问题
  • 修复 window 函数:LAG/LEAD 偏移参数支持常量表达式计算
  • 修复聚合函数:可空列投影前下推聚合操作异常;非空列 count 下推聚合问题
  • 修复时间函数:second/microsecond 函数未处理时间字面量;time_to_sec 处理 null 值时因垃圾值报错
  • 修复 AI 函数:_exec_plan_fragment_impl 调用 AI 函数时出现未知错误
  • 修复地理信息:geo 模块内存泄漏
  • 修复 information_schema:偏移时区格式不兼容

物化视图与模式变更

  • 修复物化视图包含分组集合和扫描过滤器时重写失败的问题
  • 修复大流量模式变更时读取单行集非重叠段导致的 coredump 问题

存算分离

  • 修复 TopN 查询中广播远程读取的问题
  • 修复云环境下删除 tablet 任务堆积的问题
  • 修复云环境首次启动时服务上线耗时过长的问题

Lakehouse

  • 修复某些情况下,Hive 分区变更导致元数据缓存不一致的问题
  • 修复写入 TIMESTAMP 类型分区的 Iceberg 表错误的问题
  • 修复 Paimon 表 Incremental Read 行为和 Spark 不一致的问题
  • 修复某些情况下,外表元数据缓存可能导致的死锁问题
  • 修复 BE 端 s3 client 线程数不合理导致的 IO 吞吐低的问题
  • 修复某些情况,写入存储在非 S3 对象存储上的外表时失败的问题
  • 修复某些情况下,使用 query() 进行 JDBC Catalog SQL 透传失败的问题
  • 修复 JNI Reader 时间统计导致读取性能下降的问题
  • 修复 BE 侧 jni.log 无法打印的问题

其他

  • 修复在非 Master 阶段 UNSET GLOBAL 变量时错误的问题
  • 修复某些情况下,异常的 export 任务无法取消的问题
目录
相关文章
|
2月前
|
人工智能 自然语言处理 Apache
Apache Doris AI 能力揭秘(四):HSAP 一体化混合搜索架构全解
AI 时代正在重塑数据库的角色。过去,数据库主要为人类分析者提供报表与查询能力;而现在,越来越多的查询来自智能代理(Agent),它们会自动检索知识、过滤数据、组合多种信号,并将数据库作为“实时信息源”支撑推理与决策。
161 8
Apache Doris AI 能力揭秘(四):HSAP 一体化混合搜索架构全解
|
15天前
|
存储 人工智能 固态存储
构建 AI 数据基座:思必驰基于 Apache Doris 的海量多模态数据集管理实践
面对海量多模态数据管理困境,思必驰通过构建以 Apache Doris 为核心的数据集平台,实现了数据从“散、乱、滞”到“统、明、畅”的转变。在关键场景中,存储占用下降 80%、查询 QPS 提升至 3w,不仅实现可量化的效率提升和成本优化,更系统化地提升了 AI 研发效率与模型质量。
118 0
构建 AI 数据基座:思必驰基于 Apache Doris 的海量多模态数据集管理实践
|
2月前
|
存储 SQL Java
Doris Catalog 已上线!性能提升 200x ,全面优于 JDBC Catalog,跨集群查询迈入高性能分析时代
Apache Doris 4.0.2 版本推出重磅特性:Doris Catalog。该功能专为跨 Doris 集群联邦分析设计,支持通过 Arrow Flight 和虚拟集群两种模式,进行更高效、更贴合原生优化的跨集群查询。
155 9
Doris Catalog 已上线!性能提升 200x ,全面优于 JDBC Catalog,跨集群查询迈入高性能分析时代
|
11天前
|
存储 人工智能 Cloud Native
上市大模型企业数据基础设施的选择:MiniMax 基于阿里云 SelectDB 版,打造全球统一AI可观测中台
MiniMax 作为上市大模型企业,基于阿里云 SelectDB 打造 AI 可观测中台,实现“一个平台,全球覆盖”。这一成功实践足以表明:SelectDB 能够很好满足 AI 时代海量数据实时处理与分析的需求,为同样需求的 AI 大模型企业提供了一个高性能、低成本的可靠技术解决方案。
101 5
上市大模型企业数据基础设施的选择:MiniMax 基于阿里云 SelectDB 版,打造全球统一AI可观测中台
|
3月前
|
存储 SQL 搜索推荐
货拉拉用户画像基于 Apache Doris 的数据模型设计与实践
货拉拉基于Apache Doris构建高效用户画像系统,实现标签管理、人群圈选与行为分析的统一计算引擎,支持秒级响应与大规模数据导入,显著提升查询效率与系统稳定性,助力实时化、智能化运营升级。
325 14
货拉拉用户画像基于 Apache Doris 的数据模型设计与实践
|
2月前
|
人工智能 测试技术 Apache
面向 Agent 的高并发分析:Doris vs. Snowflake vs. ClickHouse
智能体能够独立推理、实时分析数据,甚至主动触发行动。这意味着分析模式正从被动报告转向主动决策,处理模式也从以查询为中心转向以语义和响应为中心。 这一转变对数据基础设施提出巨大挑战:工作负载已从“少量用户、繁重查询、慢容忍度”转变为“海量用户(智能体)、轻量级/迭代查询、零延迟容忍度”。如果数据库系统无法满足高并发低延迟的查询需求,那么其上构建的 AI 智能体就会变得缓慢、笨拙,尤其是在一些信息检索的领域产生幻觉,给人误导性的结果。 因此,面向智能体的高并发和低延迟处理能力,已不再是可选项,而是决定数据仓库能否支撑 AI 时代的生存基石。
137 1
面向 Agent 的高并发分析:Doris  vs. Snowflake vs. ClickHouse
|
17天前
|
SQL 存储 人工智能
AI 能力揭秘(五):Apache Doris 原生向量检索的设计及实现
随着大模型和多模态 AI 的快速发展,向量已成为文本、图像、音视频等多元数据的通用语义表示。在这种背景下,检索增强生成(RAG)技术成为连接私有知识与大模型的核心桥梁,而高效的向量检索则是其关键支柱。 与将向量检索视为独立外挂服务的方案不同,Apache Doris 4.0 选择将向量检索能力深度集成于其 MPP 分析型数据库内核。实现向量检索与 SQL 计算、实时分析和事务保障的无缝融合。 本文旨在深入剖析 Doris 向量检索的系统级设计与工程实践,展示其如何在性能、易用性与规模扩展之间取得的平衡。
173 0
AI 能力揭秘(五):Apache Doris 原生向量检索的设计及实现
|
3月前
|
SQL 数据采集 运维
Doris MCP Server 0.5.1 版本发布
Doris MCP Server 0.5.1 升级发布,增强全局SQL超时、自愈连接池,新增数据治理八项能力,支持ADBC协议提速3-10倍,升级日志系统与调参文档,兼容0.4.x版本,助力企业高效稳定数据分析。
140 12
|
2月前
|
SQL 人工智能 Apache
字节跳动:Apache Doris + AI 一站式融合数据引擎的探索与实践
随着人工智能技术在业务中的渗透,我们逐渐意识到:AI 不仅是提升效率的工具,更是重构数据处理与消费方式的核心驱动力。在这一背景下,我们思考:**能否构建一款「AI + Data」一站式融合的数据引擎?** 它不仅能够统一处理文本、音视频等非结构化数据与传统结构化数据,还能为算法工程师提供流畅的数据开发体验,实现数据处理与 AI 模型无缝衔接,并能确保数据处理负载与在线服务负载完全隔离。这是 2024 年末启动 DataMind 项目的初衷。
202 0
字节跳动:Apache Doris + AI 一站式融合数据引擎的探索与实践
|
25天前
|
缓存 编译器 OLAP
驾驭 CPU 与编译器:Apache Doris 实现极致性能的底层逻辑
Apache Doris 的演进给我们提供了一个生动的答案——它不仅跟随硬件与编译器的发展而演进,更主动地通过向量化、模板化、指令级并行与精细的用户态调度模式,将每一代 CPU 的潜力推向理论极限。
152 1
驾驭 CPU 与编译器:Apache Doris 实现极致性能的底层逻辑