运用 geoip 处理器来丰富 Elasticsearch 数据

本文涉及的产品
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
简介: Geoip 处理器可以解析 IPv4 和 IPv6 地址,根据来自 Maxmind 数据库的数据添加有关 IP 地址地理位置的信息,并将此信息添加到 geoip 字段下。
Geoip 处理器可以解析 IPv4 和 IPv6 地址,根据来自 Maxmind 数据库的数据添加有关 IP 地址地理位置的信息,并将此信息添加到 geoip 字段下。
默认情况下,ingest-geoip 模块与 Maxmind 的 GeoLite2 城市,GeoLite2 国家/地区和 GeoLite2 ASN geoip2 数据库一起提供,可根据 CCA-ShareAlike 4.0 许可使用。 有关更多详细信息,请参见 http://dev.maxmind.com/geoip/geoip2/geolite2/

geoip 处理器可以与 Maxmind 等其他 GeoIP2 数据库一起运行。

1、将文件复制到 ingest-geoip 配置目录中。
2、 database_file 选项应用于指定自定义数据库的文件名。
3、自定义数据库文件必须未压缩存储。
4、ingest-geoip 配置目录位于 $ES_CONFIG/ingest-geoip。

我们先来使用几个简单的例子来展示如何使用 geoip 这个处理器。

示例一、使用默认城市数据库

使用默认城市数据库,将地理信息添加到基于 ip 字段的 geoip 字段

PUT _ingest/pipeline/geoip
{
  "description" : "Add geoip info",
  "processors" : [
    {
      "geoip" : {
        "field" : "ip"
      }
    }
  ]
}
 
PUT my_index/_doc/my_id?pipeline=geoip
{
  "ip": "8.8.8.8"
}
 
GET my_index/_doc/my_id

我们知道上面的 IP 地址是一个很著名的 DNS 解析服务器地址。我们使用了 geoip 处理器来对 ip 这个字段进行丰富。

返回结果是:

{
  "_index" : "my_index",
  "_type" : "_doc",
  "_id" : "my_id",
  "_version" : 4,
  "_seq_no" : 5,
  "_primary_term" : 9,
  "found" : true,
  "_source" : {
    "geoip" : {
      "continent_name" : "North America",
      "country_iso_code" : "US",
      "location" : {
        "lon" : -97.822,
        "lat" : 37.751
      }
    },
    "ip" : "8.8.8.8"
  }
}

上面返回的字段,除了原有的 ip 字段外, 也看到了一个新增加的字段 geoip。这个字段是原始字段完全没有的,但是经过 geoip 处理器处理后,就增加了很多有用的信息,比如 continent_name, country_iso_code 及 location 字段。我们可以知道这个服务器的地址位置,比如经纬度信息。这些信息对使用地图应用,并把数据显示在地图上非常有用。

示例二、使用默认国家/地区数据库
使用默认国家/地区数据库,并根据 ip 字段将地理信息添加到 geo 字段

请注意,此数据库包含在模块中。
PUT _ingest/pipeline/geoip
{
  "description" : "Add geoip info",
  "processors" : [
    {
      "geoip" : {
        "field" : "ip",
        "target_field" : "geo",
        "database_file" : "GeoLite2-Country.mmdb"
      }
    }
  ]
}
 
PUT my_index/_doc/my_id?pipeline=geoip
{
  "ip": "8.8.8.8"
}
 
GET my_index/_doc/my_id

返回:

{
  "_index" : "my_index",
  "_type" : "_doc",
  "_id" : "my_id",
  "_version" : 5,
  "_seq_no" : 6,
  "_primary_term" : 9,
  "found" : true,
  "_source" : {
    "geo" : {
      "continent_name" : "North America",
      "country_iso_code" : "US"
    },
    "ip" : "8.8.8.8"
  }
}

但是并不是所有的 IP 地址都可以在数据库中找到地理信息。在这种情况下,没有 target_field 被插入到文档中。

特别指明一下: target_field 在默认的情况下是 geoip 字段,比如在上面的调用中,我们指明是 geo。

示例三、找不到“80.231.5.0”的信息时

找不到“80.231.5.0”的信息时,文档被导入后的展示:

PUT _ingest/pipeline/geoip
{
  "description" : "Add geoip info",
  "processors" : [
    {
      "geoip" : {
        "field" : "ip"
      }
    }
  ]
}
 
PUT my_index/_doc/my_id?pipeline=geoip
{
  "ip": "80.231.5.0"
}
 
GET my_index/_doc/my_id

上面查询的结果是:

{
  "_index" : "my_index",
  "_type" : "_doc",
  "_id" : "my_id",
  "_version" : 6,
  "_seq_no" : 7,
  "_primary_term" : 9,
  "found" : true,
  "_source" : {
    "ip" : "80.231.5.0"
  }
}

由于IP 地址 80.231.5.0 在数据库中并不存在,那么最终在文档中没有添加任何的字段。

在数据被导入到 Elasticsearch 中时,尽管此处理器使用包含 IP 地址的估计纬度和经度的位置字段来丰富你的文档,但是如果未在映射中明确定义该字段,则该字段在 Elasticsearch 中不会被索引为 geo_point 类型。

你可以对上面的示例索引使用以下映射:

PUT my_ip_locations
{
  "mappings": {
    "properties": {
      "geoip": {
        "properties": {
          "location": { "type": "geo_point" }
        }
      }
    }
  }
}
声明:本文由原文作者“ Elastic 中国社区布道师——刘晓国”授权转载,对未经许可擅自使用者,保留追究其法律责任的权利。

image.png

阿里云Elastic Stack】100%兼容开源ES,独有9大能力,提供免费 X-pack服务(单节点价值$6000)

相关活动


更多折扣活动,请访问阿里云 Elasticsearch 官网

阿里云 Elasticsearch 商业通用版,1核2G ,SSD 20G首月免费
阿里云 Logstash 2核4G首月免费


image.png

image.png

相关实践学习
使用阿里云Elasticsearch体验信息检索加速
通过创建登录阿里云Elasticsearch集群,使用DataWorks将MySQL数据同步至Elasticsearch,体验多条件检索效果,简单展示数据同步和信息检索加速的过程和操作。
ElasticSearch 入门精讲
ElasticSearch是一个开源的、基于Lucene的、分布式、高扩展、高实时的搜索与数据分析引擎。根据DB-Engines的排名显示,Elasticsearch是最受欢迎的企业搜索引擎,其次是Apache Solr(也是基于Lucene)。 ElasticSearch的实现原理主要分为以下几个步骤: 用户将数据提交到Elastic Search 数据库中 通过分词控制器去将对应的语句分词,将其权重和分词结果一并存入数据 当用户搜索数据时候,再根据权重将结果排名、打分 将返回结果呈现给用户 Elasticsearch可以用于搜索各种文档。它提供可扩展的搜索,具有接近实时的搜索,并支持多租户。
相关文章
|
6月前
|
API 网络架构 索引
Elasticsearch索引中数据的增删改查与并发控制
Elasticsearch索引中数据的增删改查与并发控制
|
6月前
|
存储 监控 数据挖掘
使用 Meltano 将数据从 Snowflake 导入到 Elasticsearch:开发者之旅
【6月更文挑战第9天】Meltano,一个开源数据集成框架,简化了从Snowflake到Elasticsearch的数据迁移。这个工具支持多种数据源,提供易于配置的界面。要开始,需安装Meltano并配置连接信息。一个简单的YAML示例展示了如何定义从Snowflake到Elasticsearch的迁移任务。Meltano自动执行迁移,同时提供监控和日志功能。借助Meltano,用户能高效集成数据,提升搜索和分析能力,适应不断增长的数据需求和挑战。
106 6
|
2月前
|
Web App开发 JavaScript Java
elasticsearch学习五:springboot整合 rest 操作elasticsearch的 实际案例操作,编写搜索的前后端,爬取京东数据到elasticsearch中。
这篇文章是关于如何使用Spring Boot整合Elasticsearch,并通过REST客户端操作Elasticsearch,实现一个简单的搜索前后端,以及如何爬取京东数据到Elasticsearch的案例教程。
219 0
elasticsearch学习五:springboot整合 rest 操作elasticsearch的 实际案例操作,编写搜索的前后端,爬取京东数据到elasticsearch中。
|
2月前
|
消息中间件 监控 关系型数据库
MySQL数据实时同步到Elasticsearch:技术深度解析与实践分享
在当今的数据驱动时代,实时数据同步成为许多应用系统的核心需求之一。MySQL作为关系型数据库的代表,以其强大的事务处理能力和数据完整性保障,广泛应用于各种业务场景中。然而,随着数据量的增长和查询复杂度的提升,单一依赖MySQL进行高效的数据检索和分析变得日益困难。这时,Elasticsearch(简称ES)以其卓越的搜索性能、灵活的数据模式以及强大的可扩展性,成为处理复杂查询需求的理想选择。本文将深入探讨MySQL数据实时同步到Elasticsearch的技术实现与最佳实践。
138 0
|
4月前
|
存储 缓存 监控
|
4月前
|
自然语言处理 索引
ElasticSearch 实现分词全文检索 - 测试数据准备
ElasticSearch 实现分词全文检索 - 测试数据准备
54 1
|
4月前
|
数据采集 人工智能 自然语言处理
阿里云Elasticsearch AI语义搜索:解锁未来搜索新纪元,精准洞察数据背后的故事!
【8月更文挑战第2天】阿里云Elasticsearch AI场景语义搜索最佳实践
217 5
|
5月前
|
存储 安全 文件存储
【elasticsearch】es6重启服务后数据消失,es6如何配置数据持久化储存
【elasticsearch】es6重启服务后数据消失,es6如何配置数据持久化储存
57 1
|
6月前
|
索引
利用滚动索引来管理海量Elasticsearch数据
利用滚动索引来管理海量Elasticsearch数据
111 3
|
6月前
|
数据库 索引
Elasticsearch索引别名:管理与优化数据访问
Elasticsearch索引别名:管理与优化数据访问

相关产品

  • 检索分析服务 Elasticsearch版