阿里云数据库 SelectDB 版内核 Apache Doris 2.1.4 版本正式发布

简介: 亲爱的社区小伙伴们,Apache Doris 2.1.4 版本已于 2024 年 6 月 26 日正式发布。在 2.1.4 版本中,我们对数据湖分析场景进行了多项功能体验优化,重点修复了旧版本中异常内存占用的问题,同时提交了若干改进项以及问题修复,进一步提升了系统的性能、稳定性及易用性,欢迎大家下载使用。

亲爱的社区小伙伴们,Apache Doris 2.1.4 版本已于 2024 年 6 月 26 日正式发布。在 2.1.4 版本中,我们对数据湖分析场景进行了多项功能体验优化,重点修复了旧版本中异常内存占用的问题,同时提交了若干改进项以及问题修复,进一步提升了系统的性能、稳定性及易用性,欢迎大家下载使用。

官网下载页:https://doris.apache.org/download/

GitHub 下载:https://github.com/apache/doris/releases

行为变更

  • 通过 Catalog 查询外部表(如 Hive 数据表)时,系统将忽略不存在的文件:当从元数据缓存中获取文件列表时,由于缓存更新并非实时,因此可能在实际的文件列表已删除、而元数据缓存中仍存在该文件的情况。为了避免由于尝试访问不存在的文件而导致的查询错误,系统会忽略这些不存在的文件。
  • 默认情况下,创建 Bitmap Index 不再默认变更为 Inverted Index。该行为由 FE 配置项 enable_create_bitmap_index_as_inverted_index 控制,默认为 false。
  • 当使用 --console 启动 FE、BE进程时,所有日志将输出到标准输出,并通过前缀区分不同类型的日志。具体文档地址如下:
  • 如果建表时没有填写表注释,默认注释为空,不再使用表类型作为默认表注释。
  • decimalv3 的默认精度从 (9, 0) 调整为 (38,9) ,以和最初发布此功能的版本保持兼容。

新功能

查询优化器

  • 支持 FE 火焰图工具:在 FE 部署目录${DORIS_FE_HOME}/bin中会增加profile_fe.sh脚本,可以利用 async-profiler 工具生成 FE 的火焰图,用以发现性能瓶颈点。
  • 支持 SELECT DISTINCT 与聚合函数同时使用:支持SELECT DISTINCT与聚合函数同时使用,在一个查询中同时去重和进行聚合操作,如 SUM、MIN/MAX 等。
  • 支持无 GROUP BY 的单表查询重写:无GROUP BY的单表查询重写功能允许数据库优化器在不需要分组的情况下,根据查询的复杂性和数据表的结构,自动选择最佳的执行计划来执行查询,这可以提高查询的性能,减少不必要的资源消耗,并简化查询逻辑。
  • 查询优化器全面支持高并发点查询功能 :在 2.1.4 版本之后,查询优化器全面支持高并发点查询功能,所有符合点查询条件的 SQL 语句会自动走短路径查询,无需用户在客户端额外设置 set experimental_enable_nereids_planner = false

湖仓一体

异步物化视图

其他

功能优化

  • 支持为中文列名创建倒排索引。
  • 优化 Segment Cache 所消耗内存的估算准确度,以便能够更快地释放未使用的内存。
  • 在使用 Export 功能导出数据时,提前过滤空分区以提升导出效率。
  • 优化 Routine Load 任务分配算法以平衡 BE 节点之间的负载压力。
  • 在设置错误的会话变量名时,自动识别近似变量值并给出更详细的错误提示。
  • 支持将 Java UDF Jar 文件放到 FE 的 custom_lib 目录中并默认加载。
  • 为审计日志导入作业添加超时的全局变量audit_plugin_load_timeout ,以控制在加载审计插件或处理审计日志时允许的最大执行时间。
  • 优化了异步物化视图透明改写规划的性能。
  • INSERT 源数据为空时,BE 将不会执行任何操作。
  • 支持分批获取 Hudi 和 Hive 文件列表,当存在大量数据文件时可以提升数据扫描性能。
    • 120 万文件场景下,获取文件列表的时间由390秒缩减到46秒。
  • 创建异步物化视图时,禁止使用动态分区。
  • 支持检测 Hive 外表分区数据是否和异步物化视图同步。
  • 允许异步物化视图创建索引。

问题修复

查询优化器

  • 修复 SQL Cache 在 truncate paritition 后依然返回旧结果的问题。
  • 修复从 JSON Cast 到其他类型 Nullable 属性不对的问题。
  • 修复偶现的 Datetimev2 Literal 化简错误。
  • 修复窗口函数中不能使用 count(*) 的问题。
  • 修复 UNION ALL 下全部是无 FROM 的 SELECT 时,Nullable 属性可能错误的问题。
  • 修复 Bitmap in Join 和子查询解嵌套无法同时使用的问题。
  • 修复在特定情况下过滤条件不能下推到 CTE Producer 导致的性能问题。
  • 修复聚合 Combinator 为大写时,无法找到函数的问题。
  • 修复窗口函数没有被列裁剪正确裁剪导致的性能问题。
  • 修复多个同名不同库的表同时出现在查询中时,可能解析错误导致结果错误的问题。
  • 修复对于 Schema 表扫描时,由于生成了 Runtime Filter 导致查询报错的问题。
  • 修复关联子查询解嵌套,关联条件被折叠为 Null Literal 导致无法执行的问题。
  • 修复规划时,偶现的 Decimal Literal 被错误设置精度的问题。
  • 修复偶现的多层聚合被合并后规划错误的问题。
  • 修复偶现的聚合扩展规划报错输入输出不匹配的问题。
  • 修复偶现的 <=> 被错误转换为 = 的问题。

查询执行

  • 修复 Pipeline 引擎上达到限定的行数且内存没有释放时查询被挂起的问题。
  • 修复当设置 enable_decimal256 =true 且查询优化器回退到旧版本时 BE 发生 Core 的问题。

物化视图

  • 修复构建异步物化视图指定 store_row_column 属性,be core 的问题。
  • 修复构建异步物化视图指定 storage_medium 不生效的问题。
  • 修复基表删除后,异步物化视图 show partitions 报错的问题。
  • 修复异步物化视图引起备份恢复异常的问题。
  • 修复分区改写可能导致错误结果的问题。

半结构化数据分析

  • 修复带有空 Key 的 Variant 类型发生 Core 的问题。
  • Bitmap 索引和 Bloom Filter 索引不应支持轻量级索引变更。

主键模型

  • 修复在有部分列更新导入的情况下发生异常重启,可能会产生重复 Key 的问题。
  • 修复在内存紧张时发生 Clone 时 BE 可能会发生 core 的问题。

湖仓一体

  • 修复创建 Hive 表时无法使用完全限定名(如 ctl.db.tbl)的问题。
  • 修复 Refresh 操作时 Hive Metastore 连接未关闭的问题。
  • 修复从 2.0.x 升级到 2.1.x 时可能的元数据回放问题。
  • 修复 TVF 表函数无法读取空 Snappy 压缩文件的问题。
  • 修复无法读取具有无效最小/最大列统计信息的 Parquet 文件的问题。
  • 修复 Parquet/ORC Reader 中无法处理带有 null-aware 函数下推谓词的问题。
  • 修复创建 Hive 表时分区列顺序的问题。
  • 修复当分区值包含空格时无法将 Hive 表写入 S3 的问题。
  • 修复 Doris 写入 Parquet 格式 Hive 表无法被 Hive 读取的问题。
  • 修复 Hive 表 Schema 变更后无法读取 ORC 文件的问题。
  • 修复了部分情况下,启用 Hive Metastore Listener 后 FE 无法启动的问题。
  • 修复由 Hadoop FS 缓存引起的 FE OOM 问题。
  • 修复写出 Parquet 格式文件写出 Row Group 过小的问题。
  • 修复 Paimon 表 Schema 变更后无法通过 JNI 读取 Paimon 表的问题。
  • 修复 Paimon 表 Schema 变更后由于表字段长度判断错误导致无法读取的问题。
  • 修复了读取 Iceberg 中的时间戳列类型时的时区问题。
  • 修复了 Iceberg 表上的日期时间转换错误和数据路径错误的问题。
  • 修复阿里云 OSS Endpoint 不正确的问题。
  • 修复了大量文件导致的查询性能下降问题。
  • 允许用户定义的属性通过表函数传递给 S3 SDK。

数据导入

  • 修复 CANCEL LOAD 命令不生效的问题。
  • 修复导入事务 Publish 阶段空指针错误导致导入事务无法完成的问题。
  • 修复 bRPC 通过 HTTP 发送大数据文件序列化的问题。

数据管控

  • 修复了在将 DDL 或 DML 转发到主 FE 后,ConnectionContext 中的资源标签未设置的问题。
  • 修复了在启用 lower_case_table_names 时,Restore 表名不正确的问题。
  • 修复了清理无用数据或文件的管理命令不生效的问题。
  • 修复了无法从分区中删除存储策略的问题。
  • 修复了向多副本自动分区表导入数据时的数据丢失问题。
  • 修复了使用旧优化器查询或插入自动分区表时,表的分区列发生变化的问题。

内存管理

  • 修复日志中频繁报错 Cgroup meminfo 获取失败的问题
  • 修复使用 Bloom filter 时 Segment 缓存大小不受控制导致进程内存异常增长的问题。

权限

  • 修复开启表名大小写不敏感后,权限设置无效的问题。
  • 修复通过非Master FE 节点设置 LDAP 密码不生效的问题。
  • 修复了无法检查 SELECT COUNT(*) 语句授权的问题。

其他

  • 修复 MySQL 连接损坏情况下,客户端 JDBC 程序无法关闭连接的问题。
  • 修改 SHOW PROCEDURE STATUS 语句返回值与 MySQL 协议不兼容的问题。
  • libevent 库强制开启 Keepalive 以解决部分情况下连接泄露的问题。
相关实践学习
通过日志服务实现云资源OSS的安全审计
本实验介绍如何通过日志服务实现云资源OSS的安全审计。
目录
相关文章
|
11月前
|
安全 Apache 数据库
【倒计时3天】NineData x Apache Doris x 阿里云联合举办数据库技术Meetup,5月24日深圳见!
5月24日,NineData联合Apache Doris与阿里云在深圳举办数据库技术Meetup。活动聚焦「数据实时分析」与「数据同步迁移」两大领域,邀请行业专家分享技术趋势、产品实践及解决方案,助力企业构建高效安全的数据管理体系。时间:14:00-17:30;地点:深圳新一代产业园2栋20楼会议室。线下名额有限(80人),速报名参与深度交流!
305 1
|
存储 监控 数据处理
flink 向doris 数据库写入数据时出现背压如何排查?
本文介绍了如何确定和解决Flink任务向Doris数据库写入数据时遇到的背压问题。首先通过Flink Web UI和性能指标监控识别背压,然后从Doris数据库性能、网络连接稳定性、Flink任务数据处理逻辑及资源配置等方面排查原因,并通过分析相关日志进一步定位问题。
1106 61
|
存储 SQL Apache
Apache Doris 开源最顶级基于MPP架构的高性能实时分析数据库
Apache Doris 是一个基于 MPP 架构的高性能实时分析数据库,以其极高的速度和易用性著称。它支持高并发点查询和复杂分析场景,适用于报表分析、即席查询、数据仓库和数据湖查询加速等。最新发布的 2.0.2 版本在性能、稳定性和多租户支持方面有显著提升。社区活跃,已广泛应用于电商、广告、用户行为分析等领域。
Apache Doris 开源最顶级基于MPP架构的高性能实时分析数据库
|
存储 消息中间件 人工智能
AI大模型独角兽 MiniMax 基于阿里云数据库 SelectDB 版内核 Apache Doris 升级日志系统,PB 数据秒级查询响应
早期 MiniMax 基于 Grafana Loki 构建了日志系统,在资源消耗、写入性能及系统稳定性上都面临巨大的挑战。为此 MiniMax 开始寻找全新的日志系统方案,并基于阿里云数据库 SelectDB 版内核 Apache Doris 升级了日志系统,新系统已接入 MiniMax 内部所有业务线日志数据,数据规模为 PB 级, 整体可用性达到 99.9% 以上,10 亿级日志数据的检索速度可实现秒级响应。
1051 14
AI大模型独角兽 MiniMax 基于阿里云数据库 SelectDB 版内核 Apache Doris 升级日志系统,PB 数据秒级查询响应
|
SQL DataWorks 关系型数据库
阿里云 DataWorks 正式支持 SelectDB & Apache Doris 数据源,实现 MySQL 整库实时同步
阿里云数据库 SelectDB 版是阿里云与飞轮科技联合基于 Apache Doris 内核打造的现代化数据仓库,支持大规模实时数据上的极速查询分析。通过实时、统一、弹性、开放的核心能力,能够为企业提供高性价比、简单易用、安全稳定、低成本的实时大数据分析支持。SelectDB 具备世界领先的实时分析能力,能够实现秒级的数据实时导入与同步,在宽表、复杂多表关联、高并发点查等不同场景下,提供超越一众国际知名的同类产品的优秀性能,多次登顶 ClickBench 全球数据库分析性能排行榜。
760 6
|
消息中间件 人工智能 Kafka
Apache Kafka + 向量数据库 + LLM = 实时 GenAI
生成式AI(GenAI)革新了企业架构,催生新数据集成模式与最佳实践。借助Apache Kafka与Apache Flink,企业能高效处理大规模实时数据,连接各类数据库与分析平台。Kafka作为核心组件,支持GenAI应用如服务台自动化、聊天机器人及内容审核。结合大型语言模型(LLM)、检索增强生成(RAG)与向量数据库,Kafka与Flink共同打造强大数据流处理能力,克服GenAI挑战,如昂贵训练成本、数据时效性与准确性。通过语义搜索与RAG设计模式,确保LLM生成内容可靠无误。
726 0
|
存储 大数据 关系型数据库
从 ClickHouse 到阿里云数据库 SelectDB 内核 Apache Doris:快成物流的数智化货运应用实践
目前已经部署在 2 套生产集群,存储数据总量达百亿规模,覆盖实时数仓、BI 多维分析、用户画像、货运轨迹信息系统等业务场景。
753 0
|
6月前
|
人工智能 数据处理 API
阿里云、Ververica、Confluent 与 LinkedIn 携手推进流式创新,共筑基于 Apache Flink Agents 的智能体 AI 未来
Apache Flink Agents 是由阿里云、Ververica、Confluent 与 LinkedIn 联合推出的开源子项目,旨在基于 Flink 构建可扩展、事件驱动的生产级 AI 智能体框架,实现数据与智能的实时融合。
1035 6
阿里云、Ververica、Confluent 与 LinkedIn 携手推进流式创新,共筑基于 Apache Flink Agents 的智能体 AI 未来
|
存储 Cloud Native 数据处理
从嵌入式状态管理到云原生架构:Apache Flink 的演进与下一代增量计算范式
本文整理自阿里云资深技术专家、Apache Flink PMC 成员梅源在 Flink Forward Asia 新加坡 2025上的分享,深入解析 Flink 状态管理系统的发展历程,从核心设计到 Flink 2.0 存算分离架构,并展望未来基于流批一体的通用增量计算方向。
532 0
从嵌入式状态管理到云原生架构:Apache Flink 的演进与下一代增量计算范式

热门文章

最新文章

推荐镜像

更多