Elasticsearch 的数据建模与索引设计

本文涉及的产品
实时数仓Hologres,5000CU*H 100GB 3个月
实时计算 Flink 版,5000CU*H 3个月
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
简介: 【9月更文第3天】Elasticsearch 是一个基于 Lucene 的搜索引擎,广泛应用于全文检索、数据分析等领域。为了确保 Elasticsearch 的高效运行,合理的数据建模和索引设计至关重要。本文将探讨如何为不同的应用场景设计高效的索引结构,并分享一些数据建模的最佳实践。

Elasticsearch 是一个基于 Lucene 的搜索引擎,广泛应用于全文检索、数据分析等领域。为了确保 Elasticsearch 的高效运行,合理的数据建模和索引设计至关重要。本文将探讨如何为不同的应用场景设计高效的索引结构,并分享一些数据建模的最佳实践。

一、理解 Elasticsearch 的基本概念

在深入探讨数据建模之前,我们需要了解 Elasticsearch 的一些基本概念:

  • 索引(Index):类似于关系数据库中的数据库,用于存储文档集合。
  • 类型(Type):Elasticsearch 7.x 之后,默认情况下一个索引只有一个类型 _doc,但在之前的版本中,可以定义多个类型。
  • 文档(Document):索引中的单条数据记录,表示为 JSON 对象。
  • 映射(Mapping):定义了文档的结构,包括字段名称及其数据类型。

二、数据建模原则

设计高效的索引结构,需要遵循以下原则:

  1. 扁平化数据模型

    • 尽量避免使用嵌套对象,因为这会影响查询性能。如果必须使用嵌套对象,确保它们是必要的。
    // 不推荐
    {
         
      "user": {
         
        "name": "Alice",
        "age": 30
      }
    }
    
    // 推荐
    {
         
      "user_name": "Alice",
      "user_age": 30
    }
    
  2. 重复数据

    • 在某些情况下,为了提高查询性能,可以在多个文档中重复存储相同的数据。例如,在博客文章中存储作者信息。
    {
         
      "title": "Elasticsearch Tutorial",
      "author": "Alice",
      "author_bio": "Expert in Elasticsearch"
    }
    
  3. 数据预处理

    • 在索引文档之前,可以对数据进行预处理,例如规范化日期格式、清洗文本等。

三、索引设计

索引设计的目标是使查询尽可能快,并且易于管理和维护。以下是一些索引设计的建议:

  1. 选择合适的字段类型

    • 根据字段的内容选择正确的数据类型。例如,对于不需要分析的文本字段,应使用 keyword 类型;对于需要全文搜索的文本字段,则使用 text 类型。
    PUT /my_index
    {
         
      "mappings": {
         
        "properties": {
         
          "title": {
         
            "type": "text"
          },
          "category": {
         
            "type": "keyword"
          }
        }
      }
    }
    
  2. 动态映射

    • 动态映射允许 Elasticsearch 自动推断字段类型,但这可能导致意外的行为。最好显式定义所有字段的映射。
    PUT /my_index
    {
         
      "dynamic": "strict",
      "mappings": {
         
        "properties": {
         
          "title": {
         
            "type": "text"
          }
        }
      }
    }
    
  3. 分析器的选择

    • 根据你的需求选择合适的分析器。例如,standard 分析器适合大多数情况,而 whitespace 则只按空格分割单词。
    PUT /my_index
    {
         
      "settings": {
         
        "analysis": {
         
          "analyzer": {
         
            "my_analyzer": {
         
              "type": "custom",
              "tokenizer": "whitespace",
              "filter": ["lowercase"]
            }
          }
        }
      },
      "mappings": {
         
        "properties": {
         
          "title": {
         
            "type": "text",
            "analyzer": "my_analyzer"
          }
        }
      }
    }
    
  4. 分片与副本

    • 适当设置分片数量可以提高查询性能,而副本则用于数据冗余和高可用性。
    PUT /my_index
    {
         
      "settings": {
         
        "number_of_shards": 5,
        "number_of_replicas": 1
      }
    }
    

四、示例:电子商务网站的索引设计

假设我们要为一个电子商务网站设计索引,该网站需要支持商品搜索、分类浏览等功能。

  1. 商品索引

    PUT /products
    {
         
      "settings": {
         
        "number_of_shards": 5,
        "number_of_replicas": 1
      },
      "mappings": {
         
        "properties": {
         
          "title": {
         
            "type": "text",
            "analyzer": "standard"
          },
          "description": {
         
            "type": "text",
            "analyzer": "standard"
          },
          "price": {
         
            "type": "float"
          },
          "category": {
         
            "type": "keyword"
          },
          "brand": {
         
            "type": "keyword"
          }
        }
      }
    }
    
  2. 索引文档

    POST /products/_doc
    {
         
      "title": "Elasticsearch Book",
      "description": "A guide to Elasticsearch",
      "price": 39.99,
      "category": "books",
      "brand": "O'Reilly"
    }
    
  3. 查询示例

    • 全文搜索

      GET /products/_search
      {
             
        "query": {
             
          "multi_match": {
             
            "query": "elasticsearch book",
            "fields": ["title", "description"]
          }
        }
      }
      
    • 分类筛选

      GET /products/_search
      {
             
        "query": {
             
          "term": {
             
            "category": "books"
          }
        }
      }
      

五、结论

合理的数据建模和索引设计是 Elasticsearch 高效运行的基础。通过遵循扁平化数据模型、选择合适的字段类型、配置恰当的分片和副本等原则,可以确保 Elasticsearch 在面对不同应用场景时能够提供出色的性能。同时,根据具体业务需求调整索引设计,可以使查询更加高效和准确。

相关实践学习
使用阿里云Elasticsearch体验信息检索加速
通过创建登录阿里云Elasticsearch集群,使用DataWorks将MySQL数据同步至Elasticsearch,体验多条件检索效果,简单展示数据同步和信息检索加速的过程和操作。
ElasticSearch 入门精讲
ElasticSearch是一个开源的、基于Lucene的、分布式、高扩展、高实时的搜索与数据分析引擎。根据DB-Engines的排名显示,Elasticsearch是最受欢迎的企业搜索引擎,其次是Apache Solr(也是基于Lucene)。 ElasticSearch的实现原理主要分为以下几个步骤: 用户将数据提交到Elastic Search 数据库中 通过分词控制器去将对应的语句分词,将其权重和分词结果一并存入数据 当用户搜索数据时候,再根据权重将结果排名、打分 将返回结果呈现给用户 Elasticsearch可以用于搜索各种文档。它提供可扩展的搜索,具有接近实时的搜索,并支持多租户。
目录
相关文章
|
3月前
|
自然语言处理 大数据 应用服务中间件
大数据-172 Elasticsearch 索引操作 与 IK 分词器 自定义停用词 Nginx 服务
大数据-172 Elasticsearch 索引操作 与 IK 分词器 自定义停用词 Nginx 服务
81 5
|
3月前
|
存储 分布式计算 大数据
大数据-169 Elasticsearch 索引使用 与 架构概念 增删改查
大数据-169 Elasticsearch 索引使用 与 架构概念 增删改查
77 3
|
5月前
|
存储 API 数据库
检索服务elasticsearch索引(Index)
【8月更文挑战第23天】
76 6
|
2月前
|
存储 缓存 监控
优化Elasticsearch 索引设计
优化Elasticsearch 索引设计
27 5
|
2月前
|
存储 JSON 关系型数据库
Elasticsearch 索引
【11月更文挑战第3天】
43 4
|
2月前
|
测试技术 API 开发工具
ElasticSearch7.6.x 模板及滚动索引创建及注意事项
ElasticSearch7.6.x 模板及滚动索引创建及注意事项
51 8
|
7月前
|
存储 JSON 监控
Elasticsearch索引监控全面解析
Elasticsearch索引监控全面解析
142 0
|
4月前
|
JSON 自然语言处理 数据库
ElasticSearch基础1——索引和文档。Kibana,RestClient操作索引和文档+黑马旅游ES库导入
概念、ik分词器、倒排索引、索引和文档的增删改查、RestClient对索引和文档的增删改查
ElasticSearch基础1——索引和文档。Kibana,RestClient操作索引和文档+黑马旅游ES库导入
|
6月前
|
索引
Elasticsearch 查看磁盘占用 查看指定索引磁盘占用
【7月更文挑战第2天】Elasticsearch 查看磁盘占用 查看指定索引磁盘占用
|
5月前
|
存储 运维 搜索推荐
运维开发.索引引擎ElasticSearch.倒序索引的概念
运维开发.索引引擎ElasticSearch.倒序索引的概念
56 1

相关产品

  • 检索分析服务 Elasticsearch版