理解 mapping—Elastic Stack 实战手册

简介: 映射(mapping)就像数据库中的 Schema ,描述了文档可能具有的字段或属性、每个字段的数据类型,比如 Text,Keyword,Integer 或 Date ,以及 Lucene 是如何索引和存储这些字段的。

970X90.png

· 更多精彩内容,请下载阅读全本《Elastic Stack实战手册》

· 加入创作人行列,一起交流碰撞,参与技术圈年度盛事吧

创作人:欧阳楚才

映射(mapping)就像数据库中的 Schema ,描述了文档可能具有的字段或属性、每个字段的数据类型,比如 text,keyword,integer 或 date ,以及 Lucene 是如何索引和存储这些字段的。

核心简单字段类型

Elasticsearch 支持如下简单字段类型:

  • 字符串: text,keyword
  • 整数:byte,short,integer,long
  • 浮点数: float,double
  • 布尔型: boolean
  • 日期: date
更多的字段类型比如 geo_point,ip,nested 等可以在链接处查看: https://www.elastic.co/guide/en/elasticsearch/reference/current/mapping-types.html

当你索引一个包含新字段的文档之前,未曾出现 Elasticsearch 会使用动态映射,通过 JSON 中基本数据类型,尝试猜测字段类型,使用如下规则:

JSON 数据 字段类型
布尔型:true 或者 false boolean
整数:123 long
浮点数:123.45 double
字符串,有效日期:2021-05-01 date
字符串:foo bar text 和 keyword

注意:如果你通过引号 ( "123" ) 索引一个数字,它会被映射为字符串类型 text 和 keyword,而不是 long 。但如果这个字段已经映射为 long ,那么 Elasticsearch 会尝试将这个字符串转化为 long (在 coerce 设置为 true 的情况下),如果无法转化,则抛出一个异常。

查看映射

通过 /_mapping ,我们可以查看 Elasticsearch 在一个或多个索引中的映射。

Elasticsearch 文档写入示例:

PUT twitter/_doc/1
{
    "user": "kimchy",
    "post_date": "2009-11-15T13:12:00",
    "message": "Trying out Elasticsearch, so far so good?"
}

PUT twitter/_doc/2
{
    "user": "kimchy",
    "post_date": "2009-11-15T14:12:12",
    "message": "Another tweet, will it be indexed?"
}

PUT twitter/_doc/3
{
    "user": "elastic",
    "post_date": "2010-01-15T01:46:38",
    "message": "Building the site, should be kewl"
}

查看索引映射示例:

GET twitter/_mapping

Elasticsearch 根据我们索引的文档,为字段动态生成的映射:

{
  "twitter" : {
    "mappings" : {
      "properties" : {
        "message" : {
          "type" : "text",
          "fields" : {
            "keyword" : {
              "type" : "keyword",
              "ignore_above" : 256
            }
          }
        },
        "post_date" : {
          "type" : "date"
        },
        "user" : {
          "type" : "text",
          "fields" : {
            "keyword" : {
              "type" : "keyword",
              "ignore_above" : 256
            }
          }
        }
      }
    }
  }
}

注意:错误的映射,例如将年龄字段映射为 text 类型,而不是 integer ,会导致查询出现令人困惑的结果。

检查一下,而不是假设你的映射是正确的。

自定义字段映射

尽管在很多情况下基本字段数据类型已经够用,但你经常需要为单独字段自定义映射,特别是字符串字段。自定义映射允许你执行下面的操作:

  • 全文字符串字段和精确值字符串字段的区别
  • 使用特定语言分析器
  • 优化字段以适应部分匹配
  • 指定自定义数据格式
  • 还有更多

字段最重要的属性是 type 。

{
    "number_of_clicks": {
        "type": "integer"
    }
}

字符串字段类型,包括全文字符串 text 和精确值字符串 keyword。

text 类型字段的最重要属性是分析器 analyzer,默认 Elasticsearch 使用 Standard 分析器, 但你可以指定一个内置的分析器替代它,例如 whitespace 、 simple 、english、cjk:

{
   "message": {
    "type": "text",
    "analyzer": "cjk"
  }
}

创建/更新映射

当你首次创建一个索引的时候,可以指定类型的映射。你也可以使用 /_mapping 更新映射。

我们可以更新一个映射来添加一个新字段,但不能更新一个现有的 mapping 把它的字段类型从一个变为另外一个,比如从 text 变为 keyword。我

们可以在维持现有 mapping 的情况下,把一个字段变成一个 multi-field 字段。

为了描述指定映射的两种方式,我们先删除 twitter 索引:

DELETE twitter

创建一个新索引,指定 message 字段使用 cjk 分析器:

PUT twitter
{
  "settings": {
    "number_of_shards": "5",
    "number_of_replicas": "1"
  },
  "mappings": {
    "properties": {
      "user": {
        "type": "keyword"
      },
      "post_date": {
        "type": "date"
      },
      "message": {
        "type": "text",
        "analyzer": "cjk"
      }
    }
  }
}

通过消息体中指定的 mappings 创建了索引映射,索引设置 settings 中通过 number_of_shards 指定分片数,number_of_replicas 指定副本数。

给映射增加一个新的名为 tag 的 keyword 类型字段,使用 _mapping :

PUT twitter/_mapping
{
  "properties": {
    "tag": {
      "type": "keyword"
    }
  }
}

我们不需要再次列出所有已存在的字段,因为无论如何我们都无法改变它们,新字段已经被合并到存在的映射中。

测试映射

可以使用 analyze API 测试字符串字段的映射,比较下面两个请求的输出:

GET /twitter/_analyze
{
  "field": "message",
  "text": "搜索引擎" 
}

GET /twitter/_analyze
{
  "field": "tag",
  "text": "搜索引擎" 
}

消息体里面传入我们想要分析的文本。message 字段产生 3 个词条 ”搜索“、”索引” 和 ”引擎“, tag 字段产生单独的词条”搜索引擎“,换句话说,我们的映射正常工作。

相关实践学习
以电商场景为例搭建AI语义搜索应用
本实验旨在通过阿里云Elasticsearch结合阿里云搜索开发工作台AI模型服务,构建一个高效、精准的语义搜索系统,模拟电商场景,深入理解AI搜索技术原理并掌握其实现过程。
ElasticSearch 最新快速入门教程
本课程由千锋教育提供。全文搜索的需求非常大。而开源的解决办法Elasricsearch(Elastic)就是一个非常好的工具。目前是全文搜索引擎的首选。本系列教程由浅入深讲解了在CentOS7系统下如何搭建ElasticSearch,如何使用Kibana实现各种方式的搜索并详细分析了搜索的原理,最后讲解了在Java应用中如何集成ElasticSearch并实现搜索。  
相关文章
|
存储 API C++
【Qt 信号槽】深入探索 Qt 信号和槽机制中的引用传递“ (“A Deep Dive into Reference Passing in Qt Signal and Slot Mechanism“)
【Qt 信号槽】深入探索 Qt 信号和槽机制中的引用传递“ (“A Deep Dive into Reference Passing in Qt Signal and Slot Mechanism“)
1354 0
|
10月前
|
域名解析 网络协议 安全
DNS服务器地址大全
DNS(域名系统)是互联网的“电话簿”,将域名解析为IP地址。选择优质DNS服务器可提升网络速度、降低延迟。以下是全球及中国各运营商的DNS服务器列表,包括公共DNS(如Google DNS、Cloudflare DNS)、中国电信、联通、移动等。根据地理位置、稳定性、安全性与隐私保护等因素选择适合的DNS服务器,优化上网体验。
34811 6
|
小程序 JavaScript Java
点餐|外卖订餐小程序|基于微信小程序的外卖订餐系统设计与实现(源码+数据库+文档)
点餐|外卖订餐小程序|基于微信小程序的外卖订餐系统设计与实现(源码+数据库+文档)
855 0
|
存储 分布式计算 Hadoop
HDFS中的NameNode和DataNode的作用是什么?它们之间的通信方式是什么?
HDFS中的NameNode和DataNode的作用是什么?它们之间的通信方式是什么?
1965 0
基于 FFI 的 PyFlink 下一代 Python 运行时介绍
PyFlink 现有的 Python 运行时及基于 JCP 构建的下一代 Python 运行时的架构及优势。
基于 FFI 的 PyFlink 下一代 Python 运行时介绍
|
存储 Rust JavaScript
|
Web App开发 数据可视化 前端开发
中国各省市经纬度坐标
最近在开发中用到了全国各省会的经纬度坐标,所以自己总结了下分享给大家,点击链接地址
5124 0
|
28天前
|
人工智能 自然语言处理 Shell
🦞 如何在 OpenClaw (Clawdbot/Moltbot) 配置阿里云百炼 API
本教程指导用户在开源AI助手Clawdbot中集成阿里云百炼API,涵盖安装Clawdbot、获取百炼API Key、配置环境变量与模型参数、验证调用等完整流程,支持Qwen3-max thinking (Qwen3-Max-2026-01-23)/Qwen - Plus等主流模型,助力本地化智能自动化。
37897 151
🦞 如何在 OpenClaw (Clawdbot/Moltbot) 配置阿里云百炼 API

热门文章

最新文章