让分词更懂你的搜索!海量分词-ES插件重磅发布!

本文涉及的产品
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
简介: 海量中文智能分词v5.0-ES插件 发布!

近几年备受追捧的ElasticSearch(ES)凭借其稳定、可靠、快速的实时搜索,受到大家的好评,维基百科、SoundCloud 将 ES 作为其核心搜索组件。但是 ES 本身对中文分词和搜索比较局限。简单地说一种是单字形式,一种是任意相邻两字成词,两种方式都不能很好的满足现在的中文分词需求,进而影响了搜索结果。因此用户会根据使用情景自定义配置中文分词器,为此海量近期推出的高效、智能的适用于ES的中文分词插件能够快速实现智能分词,更贴近搜索需求。让分词更懂你的搜索!


插件下载地址:https://github.com/HylandaOpen/elasticsearch-analysis-hlseg


插件分词效果如何?


小编抽取市面上主流插件与海量中文智能分词v5.0-ES插件的效果进行对比测试,在众多的分词插件中我们发现了海量分词重点在地名识别、著名人名、外国人名等有很好的识别效果。


1、地名方面海量分词5.0可以识别并检索出关于地名后缀的结果。

可以通过搜索“河南”得到“河南省”的结果,搜索“天津”得到“天津市”的搜索结果,而不是简单河南、天津的识别。


2、著名人物的人名识别更精准如刘翔、傅莹等。

部分分词器处理中文分词只有两种方式:一种是单字(unigrams)形式,即简单粗暴的将中文的每一个汉字作为一个词(token)分开;另一种是两字(bigrams)的,也就是任意相邻的两个汉字作为一个词分开。这种简单粗暴的切分方式无法实现时效性较新的人名识别,如刘翔、傅莹等会被识别为单字切开。


3、外国人名识别方面海量可以将人名识别智能识别。

“玛利亚 凯利”、“乔治·史密斯”、“玛丽·戴维斯”将完整的外国人名识别出姓氏和名,如“乔治·史密斯”可以被识别为“乔治”和 “史密斯”。


4、常见词的品牌名称识别方面,海量分词5.0识别的结果中包含实际意义的品牌名称。

如“乐高”,“吉米作为简单的词,可以被识别,但是词放在文档语境中有其品牌的属性,海量分词识别的结果中可以准确搜索出品牌的结果。


5、机构名识别方面,海量分词5.0可以识别完整的机构名称,如“天津海量信息技术股份有限公司”,可以完整的识别出全称。


6、从效率角度,海量分词5.0的效率为300万字/s处理速度,极大地提升了建立索引的性能。

 

安装插件的方法


  1. 下载并解压适用于您的海量中文智能分词v5.0-ES插件

  2. 下载并解压海量分词5.0词典

  3. 将词典更新config目录下

  4. 重新启动elasticsearch


注:其他相关步骤详情请参考github下说明信息

       如果您需要自主打包,目前只支持ES5.5.1以上版本;

       


Quick Example


1.建立一个  index

 


2.建立一个 mapping

 


3.高亮显示命中数据

 


关于ElasticSearch

一、ES的概念


ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口。Elasticsearch是用Java开发的,并作为Apache许可条款下的开放源码发布,是当前流行的企业级搜索引擎。设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。


ES传说Story

关于elasticsearch的一个传说,有一个程序员失业了,陪着自己老婆去英国伦敦学习厨师课程。程序员在失业期间想给老婆写一个菜谱搜索引擎,觉得lucene实在太复杂了,就开发了一个封装了lucene的开源项目,compass。后来程序员找到了工作,是做分布式的高性能项目的,觉得compass不够,就写了elasticsearch,让lucene变成分布式的系统。


二、关于ES的实操案例


对于一个ToB的产品,Elasticsearch容易部署,上手使用成本非常低,部署完成后企业的非结构化数据很容易通过搜索引擎,极大地提高了用户效率。因此迅速传播开,形成使用的风潮。

1、2013年,GitHub抛弃了Solr,采用了ElasticSearch做PB级的搜索,“GitHub使用ElasticSearch搜索20TB的数据,包括13亿文件和1300亿行代码”。

2、维基百科启动以ElasticSearch为基础的核心搜索架构。

3、SoundCloud使用ElasticSearch为1.8亿用户提供即时而精准的音乐搜索服务。

4、百度目前广泛使用ElasticSearch作为文本数据分析,采集百度所有服务器上的各类指标数据及用户自定义数据,通过对各种数据进行多维分析展示,辅助定位分析实例异常或业务层面异常。目前覆盖百度内部20多个业务线(包括casio、云分析、网盟、预测、文库、直达号、钱包、风控等),单集群最大100台机器,200个ES节点,每天导入30TB+数据。


推荐海量中文智能分词v5.0-ES插件的理由


  • 海量分词5.0 可以智能识别多种颗粒度分词,识别效果好,效率高。

  • 海量分词5.0 更新字典在地名、机构名、人名等命名实体识别方面效果有明显的优势。

  • 免费且持续进化的海量分词5.0 插件的迭代速度快,和最新版本保持高度一致。



大家如有问题欢迎咨询数据分析助理(helanren321)
相关实践学习
使用阿里云Elasticsearch体验信息检索加速
通过创建登录阿里云Elasticsearch集群,使用DataWorks将MySQL数据同步至Elasticsearch,体验多条件检索效果,简单展示数据同步和信息检索加速的过程和操作。
ElasticSearch 入门精讲
ElasticSearch是一个开源的、基于Lucene的、分布式、高扩展、高实时的搜索与数据分析引擎。根据DB-Engines的排名显示,Elasticsearch是最受欢迎的企业搜索引擎,其次是Apache Solr(也是基于Lucene)。 ElasticSearch的实现原理主要分为以下几个步骤: 用户将数据提交到Elastic Search 数据库中 通过分词控制器去将对应的语句分词,将其权重和分词结果一并存入数据 当用户搜索数据时候,再根据权重将结果排名、打分 将返回结果呈现给用户 Elasticsearch可以用于搜索各种文档。它提供可扩展的搜索,具有接近实时的搜索,并支持多租户。
目录
相关文章
|
新零售 自然语言处理 运维
一文详解 | 开放搜索兼容Elasticsearch做召回引擎
开放搜索发布开源兼容版,支持阿里云Elasticsearch做搜索召回引擎,本文详细介绍阿里云ES用户如何通过接入开放搜索兼容版丰富行业分词库,提升查询语义理解能力,无需开发、算法投入,即可获得淘系同款搜索效果。
1571 0
|
4月前
|
SQL JSON 大数据
ElasticSearch的简单介绍与使用【进阶检索】 实时搜索 | 分布式搜索 | 全文搜索 | 大数据处理 | 搜索过滤 | 搜索排序
这篇文章是Elasticsearch的进阶使用指南,涵盖了Search API的两种检索方式、Query DSL的基本语法和多种查询示例,包括全文检索、短语匹配、多字段匹配、复合查询、结果过滤、聚合操作以及Mapping的概念和操作,还讨论了Elasticsearch 7.x和8.x版本中type概念的变更和数据迁移的方法。
ElasticSearch的简单介绍与使用【进阶检索】 实时搜索 | 分布式搜索 | 全文搜索 | 大数据处理 | 搜索过滤 | 搜索排序
|
自然语言处理 算法 搜索推荐
给全文搜索引擎Manticore (Sphinx) search 增加中文分词
Sphinx search 是一款非常棒的开源全文搜索引擎,它使用C++开发,索引和搜索的速度非常快,我使用sphinx的时间也有好多年了。最初使用的是coreseek,一个国人在sphinxsearch基础上添加了mmseg分词的搜索引擎,可惜后来不再更新,sphinxsearch的版本太低,bug也会出现;后来也使用最新的sphinxsearch,它可以支持几乎所有语言,通过其内置的ngram tokenizer对中文进行索引和搜索。
4097 0
|
6月前
|
监控 NoSQL MongoDB
MongoDB全文检索: 助力快速精准的文本搜索
MongoDB全文检索: 助力快速精准的文本搜索
360 0
|
前端开发 微服务 Python
厉害了!如何在 Gihub 快速搜索开源项目?
很多的小伙伴,经常会有这样的困惑,我看了很多技术的学习文档、书籍、甚至视频,我想动手实践,于是我打开了GitHub,想找个开源项目,进行学习,获取项目实战经验。这个时候很多小伙伴就会面临这样的问题:“我不会搜啊,我该怎么找呀?”,最终只能放弃。相信看完这篇文章,你就可以学会如何精准地在GitHub搜索项目。
|
SQL 自然语言处理 Java
Elasticsearch连续剧之实战搜索文档
前几篇文章中,小编给大家介绍了一些es的基本操作,还有常用分词器的搭建,现在给大家来示范一下es的一些常见文档搜索方式
|
自然语言处理 数据库 索引
全文检索工具elasticsearch:第四章:开发电商的搜索列表功能
全文检索工具elasticsearch:第四章:开发电商的搜索列表功能
227 0
全文检索工具elasticsearch:第四章:开发电商的搜索列表功能
|
机器学习/深度学习 人工智能 自然语言处理
阿里云智能编码插件,Cosy文档搜索上新了
阿里云智能编码插件,Cosy文档搜索上新啦!阿里云智能编码插件,更Cosy的开发体验。Cosy集合了代码补全和代码搜索两大开发辅助功能,不仅能通过深度学习模型和程序分析技术,精准智能地帮助我们减少 击剑 击键次数,还能基于海量代码片段和社区问答数据,让我们可以哪里不会搜哪里,沉浸在IDE内快乐开发。
958 1
阿里云智能编码插件,Cosy文档搜索上新了
|
存储 自然语言处理 前端开发
基于solr实现通用:输入提示、纠错、拼音搜索、繁体搜索方案
假期重新把之前在新浪博客里面的文字梳理了下,搬到这里。文本介绍基于solr实现通用:输入提示、纠错、拼音搜索、繁体搜索方案。
397 0
基于solr实现通用:输入提示、纠错、拼音搜索、繁体搜索方案
|
自然语言处理 运维 算法
新功能 | 智能开放搜索上线定制分词器
智能开放搜索上线定制召回模型-定制分词器功能,满足各行业、垂类、业务特殊,对搜索有较高分词要求的客户,提升语义理解能力,精准召回用户搜索意图。
1015 0