postgres中的中文分词zhparser

简介:

postgres中的中文分词zhparser

postgres中的中文分词方法

基本查了下网络,postgres的中文分词大概有两种方法:

  • Bamboo
  • zhparser

其中的Bamboo安装和使用都比较复杂,所以我选择的是zhparser

zhparse基于scws

scws是简易中文分词系统的缩写,它的原理其实很简单,基于词典,将文本中的内容按照词典进行分词,提取关键字等。github上的地址在这里。它是xunsearch的核心分词系统。

zhparser是基于scws来做的postgres的扩展。

安装

基本按照zhparser 中的步骤就可以了。

使用

在postgres.conf中你可以设置下面的参数:

zhparser.punctuation_ignore = f

zhparser.seg_with_duality = f

zhparser.dict_in_memory = f

zhparser.multi_short = f

zhparser.multi_duality = f

zhparser.multi_zmain = f

zhparser.multi_zall = f

还可以设置自有词典

zhparser.extra_dicts = 'dict_extra.txt,mydict.xdb'

虽然项目文档说用txt也是可以的,但是我自己尝试过的时候,自有词典只能使用xdb

sql使用

按照文档说明

CREATE EXTENSION zhparser;
CREATE TEXT SEARCH CONFIGURATION testzhcfg (PARSER = zhparser);
ALTER TEXT SEARCH CONFIGURATION testzhcfg ADD MAPPING FOR n,v,a,i,e,l WITH simple;

在这三步之后,你就创建了一个testzhcfg的解析器

to_tsvector, to_tsquery 其实都是有第一个参数的,第一个参数表示解析器是什么。比如你想要进行文本搜索,可以使用下面的语句:

SELECT id FROM question_view
            WHERE to_tsvector('testzhcfg', content) @@ to_tsquery('testzhcfg', '宝马') AND status = 1  ORDER BY id DESC

这个语句是基于视图question_view的

目录
相关文章
|
Web App开发 关系型数据库 数据库
用PostgreSQL 做实时高效 搜索引擎 - 全文检索、模糊查询、正则查询、相似查询、ADHOC查询
用PostgreSQL 做实时高效 搜索引擎 - 全文检索、模糊查询、正则查询、相似查询、ADHOC查询作者digoal 日期2017-12-05 标签PostgreSQL , 搜索引擎 , GIN , ranking , high light , 全文检索 , 模糊查询 , 正则查询 , 相似查询 , ADHOC查询 背景字符串搜索是非常常见的业务需求,它包括: 1、前缀+模糊查询。
11692 1
|
8月前
|
SQL 数据库连接 Python
Python3 notes
Python3 notes
|
8月前
|
Python
Python小姿势 - This article will introduce the basic concepts of multithreading in Python.
Python小姿势 - This article will introduce the basic concepts of multithreading in Python.
|
8月前
|
运维 监控 小程序
一个人也能支撑起的项目是怎样的架构
云托管真的是开发者的福音!!!不仅简化了小程序API的接入,还省了买服务器的钱。像灰度发布、监控实例、服务器规格调整这些头疼的事儿,统统都不用费心。
116 2
|
SQL 存储 自然语言处理
玩转阿里云RDS PostgreSQL数据库通过pg_jieba插件进行分词
在当今社交媒体的时代,人们通过各种平台分享自己的生活、观点和情感。然而,对于平台管理员和品牌经营者来说,了解用户的情感和意见变得至关重要。为了帮助他们更好地了解用户的情感倾向,我们可以使用PostgreSQL中的pg_jieba插件对这些发帖进行分词和情感分析,来构建一个社交媒体情感分析系统,系统将根据用户的发帖内容,自动判断其情感倾向是积极、消极还是中性,并将结果存储在数据库中。
玩转阿里云RDS PostgreSQL数据库通过pg_jieba插件进行分词
|
Docker 容器
docker 设置国内镜像源
docker 设置国内镜像源
47378 1
|
Docker 容器
docker 镜像源大全
docker 镜像源大全
81712 3
docker 镜像源大全
|
SQL Oracle 关系型数据库
Oracle-OLAP和OLTP解读
Oracle-OLAP和OLTP解读
631 0
|
TensorFlow 算法框架/工具
成功解决WARNING:tensorflow:From :read_data_sets (from tensorflow.contrib.learn.python.learn.
成功解决WARNING:tensorflow:From :read_data_sets (from tensorflow.contrib.learn.python.learn.
|
自然语言处理 关系型数据库 PostgreSQL
PostgreSQL中文全文检索
一 安装必备软件 1.1 安装SCWS 下载scws:http://www.xunsearch.com/scws/down/scws-1.2.2.tar.
2612 0

热门文章

最新文章