白话Elasticsearch61-进阶篇之基于Term Vectors深入探查数据的情况

2023-05-26 88

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

检索分析服务 Elasticsearch 版，2核4GB开发者规格 1个月

简介： 白话Elasticsearch61-进阶篇之基于Term Vectors深入探查数据的情况

概述

继续跟中华石杉老师学习ES，第61篇

课程地址： https://www.roncoo.com/view/55

官网

Term Vectors：戳这里

概括来说：Term Vectors就是获取document中的某个field内的各个term的统计信息

Term information

主要包含以下几个信息： term frequency in the field, term positions, start and end offsets, term payloads

Term statistics

设置term_statistics=true 后将返回：

total term frequency, 一个term在所有document中出现的频率;
document frequency，有多少document包含这个term

Field statistics

document count：有多少document包含这个field;
sum of document frequency：一个field中所有term的df之和;
sum of total term frequency：一个field中的所有term的tf之和

Terms filtering

GET /my_index/my_type/_termvectors
{
  "doc" : {
    "fullname" : "Leo Li",
    "text" : "hello test test test"
  },
  "fields" : ["text"],
  "offsets" : true,
  "payloads" : true,
  "positions" : true,
  "term_statistics" : true,
  "field_statistics" : true,
  "filter" : {
      "max_num_terms" : 3,
      "min_term_freq" : 1,
      "min_doc_freq" : 1
    }
}

这个就是说，根据term统计信息，过滤出你想要看到的term vector统计结果

也挺有用的，比如你探查数据把，可以过滤掉一些出现频率过低的term，就不考虑了 .

Behaviour

term statistics和field statistics并不精准，被删除了的doc不会被考虑.

示例

总结

其实Term Vectors很少用，用的时候，一般来说，就是你需要对一些数据做探查的时候。比如说，你想要看到某个term，某个词条比如“xxxx”，这个词条，在多少个document中出现了。或者说某个field 比如 film_desc（电影的说明信息），有多少个doc包含了这个说明信息。

相关实践学习

使用阿里云Elasticsearch体验信息检索加速

通过创建登录阿里云Elasticsearch集群，使用DataWorks将MySQL数据同步至Elasticsearch，体验多条件检索效果，简单展示数据同步和信息检索加速的过程和操作。

ElasticSearch 入门精讲

ElasticSearch是一个开源的、基于Lucene的、分布式、高扩展、高实时的搜索与数据分析引擎。根据DB-Engines的排名显示，Elasticsearch是最受欢迎的企业搜索引擎，其次是Apache Solr（也是基于Lucene）。 ElasticSearch的实现原理主要分为以下几个步骤：用户将数据提交到Elastic Search 数据库中通过分词控制器去将对应的语句分词，将其权重和分词结果一并存入数据当用户搜索数据时候，再根据权重将结果排名、打分将返回结果呈现给用户 Elasticsearch可以用于搜索各种文档。它提供可扩展的搜索，具有接近实时的搜索，并支持多租户。

白话Elasticsearch61-进阶篇之基于Term Vectors深入探查数据的情况

概述

官网

Term information

Term statistics

Field statistics

Terms filtering

Behaviour

示例

总结

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

白话Elasticsearch61-进阶篇之基于Term Vectors深入探查数据的情况

概述

官网

Term information

Term statistics

Field statistics

Terms filtering

Behaviour

示例

总结

热门文章

最新文章

相关课程

相关电子书

相关实验场景