postgres中的中文分词zhparser

简介:

postgres中的中文分词zhparser

postgres中的中文分词方法

基本查了下网络,postgres的中文分词大概有两种方法:

  • Bamboo
  • zhparser

其中的Bamboo安装和使用都比较复杂,所以我选择的是zhparser

zhparse基于scws

scws是简易中文分词系统的缩写,它的原理其实很简单,基于词典,将文本中的内容按照词典进行分词,提取关键字等。github上的地址在这里。它是xunsearch的核心分词系统。

zhparser是基于scws来做的postgres的扩展。

安装

基本按照zhparser 中的步骤就可以了。

使用

在postgres.conf中你可以设置下面的参数:

zhparser.punctuation_ignore = f

zhparser.seg_with_duality = f

zhparser.dict_in_memory = f

zhparser.multi_short = f

zhparser.multi_duality = f

zhparser.multi_zmain = f

zhparser.multi_zall = f

还可以设置自有词典

zhparser.extra_dicts = 'dict_extra.txt,mydict.xdb'

虽然项目文档说用txt也是可以的,但是我自己尝试过的时候,自有词典只能使用xdb

sql使用

按照文档说明

CREATE EXTENSION zhparser;
CREATE TEXT SEARCH CONFIGURATION testzhcfg (PARSER = zhparser);
ALTER TEXT SEARCH CONFIGURATION testzhcfg ADD MAPPING FOR n,v,a,i,e,l WITH simple;

在这三步之后,你就创建了一个testzhcfg的解析器

to_tsvector, to_tsquery 其实都是有第一个参数的,第一个参数表示解析器是什么。比如你想要进行文本搜索,可以使用下面的语句:

SELECT id FROM question_view
            WHERE to_tsvector('testzhcfg', content) @@ to_tsquery('testzhcfg', '宝马') AND status = 1  ORDER BY id DESC

这个语句是基于视图question_view的


本文转自轩脉刃博客园博客,原文链接:http://www.cnblogs.com/yjf512/p/4408968.html,如需转载请自行联系原作者

相关文章
|
SQL Java 数据库连接
一篇文章彻底理解数据库的各种 JDBC 超时参数 1
一篇文章彻底理解数据库的各种 JDBC 超时参数
|
5月前
|
安全 关系型数据库 网络安全
安全加固:启动PostgreSQL 14服务器SSL加密的方法指南在CentOS 7环境中
通过上述步骤,你可以为PostgreSQL数据库服务器设置SSL加密,从而增加数据在传输中的安全性。确保维持证书的有效性,并且定期更新和管理密钥,以防止未授权访问。
248 0
|
4月前
|
云栖大会
2025 云栖大会来了|免费门票限量抢!
云栖大会 2025 门票免费领取!
307 0
|
5月前
|
负载均衡 算法 Java
微服务篇
本内容整理了Spring Cloud微服务架构中的核心组件、服务注册与发现机制、负载均衡策略、服务容错、限流算法、分布式事务及接口幂等性设计等关键技术点,并结合Nacos、Sentinel、Seata等中间件进行实际应用解析。
358 0
|
自然语言处理 算法 关系型数据库
postgresql 全文检索 SCWS和zhparser部署
UPDATE report_content SET content_tsv = to_tsvector('testzhcfg',content);
401 8
|
SQL 安全 JavaScript
告别Web安全小白!Python实战指南:抵御SQL注入、XSS、CSRF的秘密武器!
【9月更文挑战第12天】在Web开发中,安全漏洞如同暗礁,尤其对初学者而言,SQL注入、跨站脚本(XSS)和跨站请求伪造(CSRF)是常见挑战。本文通过实战案例,展示如何利用Python应对这些威胁。首先,通过参数化查询防止SQL注入;其次,借助Jinja2模板引擎自动转义机制抵御XSS攻击;最后,使用Flask-WTF库生成和验证CSRF令牌,确保转账功能安全。掌握这些技巧,助你构建更安全的Web应用。
282 5
|
Docker 容器
6-16|docker怎么把容器内的文件传出来
6-16|docker怎么把容器内的文件传出来
|
存储 SQL 安全
【绝密攻略】Flask应用如何抵御黑客入侵?七大安全技巧助你构建固若金汤的Web防线!
【8月更文挑战第31天】安全性是Web应用开发中的关键部分。Flask作为一款轻量级且高度可定制的框架,虽灵活但需开发者确保应用安全。本文介绍如何通过具体措施加固Flask应用,包括更新依赖项、启用CSRF保护、使用HTTPS、安全存储密码、防止SQL注入及清理用户输入等。通过示例代码展示如何在实际开发中应用这些策略,帮助提升应用安全性,为用户提供更可靠的服务。
569 0
|
消息中间件 监控 API
微服务的主要组件
【8月更文挑战第22天】
1359 0

热门文章

最新文章