ES聚合算法原理深入解读:深度优先算法(DFS)和广度优先算法(BFS)(一)

简介: ES聚合算法原理深入解读:深度优先算法(DFS)和广度优先算法(BFS)(一)

1、引言

Elasticsearch中的 Terms 桶聚合基于我们的数据动态构建桶;但是它并不知道到底生成了多少桶。 大多数时候对单个字段的聚合查询还是非常快的, 但是当需要同时聚合多个字段时,就可能会产生大量的分组,最终结果就是占用 es 大量内存,从而导致 OOM 的情况发生。


在Elasticsearch中,对于具有许多唯一术语和少量所需结果的字段,延迟子聚合的计算直到顶部父级聚合被修剪会更有效。通常,聚合树的所有分支都在一次深度优先传递中展开,然后才会发生任何修剪。在某些情况下,非常浪费资源,并且可能会遇到内存限制。


而本文所讲的内容即通过 DFS 和 BFS 提升检索效率和提升聚合性能,基本原理即:推迟子聚合的计算。


2、案例

假设有索引actor_films,存储信息为某些演员和其出演过的一些电影。


2.1 数据

PUT /actor_films/_doc/1
{
  "name": "成龙",
  "films": [
    {
      "name": "A计划",
      "collect": 210
    },
    {
      "name": "B计划",
      "collect": 200
    },
    {
      "name": "C计划",
      "collect": 230
    },
    {
      "name": "D计划",
      "collect": 250
    }
  ]
}
PUT /actor_films/_doc/2
{
  "name": "李连杰",
  "films": [
    {
      "name": "功夫",
      "collect": 310
    },
    {
      "name": "少林寺",
      "collect": 400
    },
    {
      "name": "峨眉",
      "collect": 530
    }
  ]
}
PUT /actor_films/_doc/3
{
  "name": "吴京",
  "films": [
    {
      "name": "战狼",
      "collect": 210
    },
    {
      "name": "战狼2",
      "collect": 500
    },
    {
      "name": "流浪地球",
      "collect": 630
    }
  ]
}


2.2 假设有如下需求:

统计演员列表中总票房最高的前十位演员每个人票房最高的前五部电影

因为无法导入大量数据,并且聚合代码本身非本文所讲解重点,因此下面代码采用伪代码方式,即跳过具体的逻辑部分。


伪代码如下:

GET actor_films/_search
{
  "size": 0,
  "aggs": {
    "actors_agg": {
      "terms": {
        "field": "name.keyword",
        "size": 10 // 这里跳过了计算过程,假设默认排序就是票房排序倒序排列
      },
      "aggs": {
        "movies_agg": {
          "terms": {
            "field": "movies.name.keyword",
            "size": 5 // 假设默认就是票房排序
          }
        }
      }
    }
  }
}


2.3 性能痛点

首先,上述代码描述的问题可用下图表示,假设演员数据有M个,M是一个很大的数值,比如1万、10万或者更多。每位演员出演过N部电影,每个M对应的N可能不同,N 大于5。

a8836329c4224c4aa956f9c462067ba5.png

按照上述需求,我们最终要返回的桶数量最大值为 50。默认情况下,ES 会先构建完整的树,然后修剪无用节点。下图中表示即先遍历 演员1,然后遍历演员一的第一个分支,直至第一个分支没有子节点,回溯值演员一的第二个分支,直至遍历完演员1 的所有分支,回溯至Entry,然后遍历演员2。最终遍历节点数为 MN。如果演员数量有1万,平均每个演员10部电影,此时遍历所产生的的计算为10万次,而我们真正需要的只有50次!


3 解决方式

3.1 Collect mode

ES 中允许设置参数collect_mode

"collect_mode": "{collect_mode.value}"


3.2 参数

breadth_first:即使用广度优先算法。即:先做第一层聚合,逐层修剪。广度优先仅仅适用于每个组的聚合数量远远小于当前总组数的情况下,因为广度优先会在内存中缓存裁剪后的仅仅需要缓存的每个组的所有数据,以便于它的子聚合分组查询可以复用上级聚合的数据。广度优先的内存使用情况与裁剪后的缓存分组数据量是成线性的。对于很多聚合来说,每个桶内的文档数量是相当大的。


depth_first:使用深度优先算法,即:先构建完整的树,然后修剪无用节点。


3.3 完整代码如下

GET actor_films/_search
{
  "size": 0,
  "aggs": {
    "actors_agg": {
      "terms": {
        "field": "name.keyword",
        "size": 10, // 这里跳过了计算过程,假设默认排序就是票房排序倒序排列
        "collect_mode": "breadth_first" // 使用广度优先搜索
      },
      "aggs": {
        "movies_agg": {
          "terms": {
            "field": "movies.name.keyword",
            "size": 5 // 假设默认就是票房排序
          }
        }
      }
    }
  }
}


相关文章
|
1月前
|
算法 容器
令牌桶算法原理及实现,图文详解
本文介绍令牌桶算法,一种常用的限流策略,通过恒定速率放入令牌,控制高并发场景下的流量,确保系统稳定运行。关注【mikechen的互联网架构】,10年+BAT架构经验倾囊相授。
令牌桶算法原理及实现,图文详解
|
19天前
|
存储 人工智能 缓存
【AI系统】布局转换原理与算法
数据布局转换技术通过优化内存中数据的排布,提升程序执行效率,特别是对于缓存性能的影响显著。本文介绍了数据在内存中的排布方式,包括内存对齐、大小端存储等概念,并详细探讨了张量数据在内存中的排布,如行优先与列优先排布,以及在深度学习中常见的NCHW与NHWC两种数据布局方式。这些布局方式的选择直接影响到程序的性能,尤其是在GPU和CPU上的表现。此外,还讨论了连续与非连续张量的概念及其对性能的影响。
42 3
|
23天前
|
机器学习/深度学习 人工智能 算法
探索人工智能中的强化学习:原理、算法与应用
探索人工智能中的强化学习:原理、算法与应用
|
1月前
|
负载均衡 算法 应用服务中间件
5大负载均衡算法及原理,图解易懂!
本文详细介绍负载均衡的5大核心算法:轮询、加权轮询、随机、最少连接和源地址散列,帮助你深入理解分布式架构中的关键技术。关注【mikechen的互联网架构】,10年+BAT架构经验倾囊相授。
5大负载均衡算法及原理,图解易懂!
|
1月前
|
缓存 算法 网络协议
OSPF的路由计算算法:原理与应用
OSPF的路由计算算法:原理与应用
45 4
|
1月前
|
存储 算法 网络协议
OSPF的SPF算法介绍:原理、实现与应用
OSPF的SPF算法介绍:原理、实现与应用
78 3
|
23天前
|
机器学习/深度学习 人工智能 算法
探索人工智能中的强化学习:原理、算法及应用
探索人工智能中的强化学习:原理、算法及应用
|
1月前
|
算法 vr&ar 计算机视觉
数据结构之洪水填充算法(DFS)
洪水填充算法是一种基于深度优先搜索(DFS)的图像处理技术,主要用于区域填充和图像分割。通过递归或栈的方式探索图像中的连通区域并进行颜色替换。本文介绍了算法的基本原理、数据结构设计(如链表和栈)、核心代码实现及应用实例,展示了算法在图像编辑等领域的高效性和灵活性。同时,文中也讨论了算法的优缺点,如实现简单但可能存在堆栈溢出的风险等。
42 0
|
2月前
|
算法 数据库 索引
HyperLogLog算法的原理是什么
【10月更文挑战第19天】HyperLogLog算法的原理是什么
103 1
|
17天前
|
算法
基于WOA算法的SVDD参数寻优matlab仿真
该程序利用鲸鱼优化算法(WOA)对支持向量数据描述(SVDD)模型的参数进行优化,以提高数据分类的准确性。通过MATLAB2022A实现,展示了不同信噪比(SNR)下模型的分类误差。WOA通过模拟鲸鱼捕食行为,动态调整SVDD参数,如惩罚因子C和核函数参数γ,以寻找最优参数组合,增强模型的鲁棒性和泛化能力。