PostgreSQL全文检索的性能问题-问答-阿里云开发者社区-阿里云

开发者社区> 问答> 正文
阿里云
为了无法计算的价值
打开APP
阿里云APP内打开

PostgreSQL全文检索的性能问题

2016-10-01 11:45:56 3311 1

近期业务需要,准备上全文检索功能。原始数据是2000W+的txt文件,每个文件里面一段文字,平均单个文件大小100k。在实施过程中,遇到性能问题。

  1. 硬件配置:

阿里云ECS,2CPU/8G内存,自己安装的PG(注意:不是那个独立的RDS产品)

  1. PG版本9.4,参数如下:

fsync off
shared_buffers 1GB
work_mem 10MB
effective_cache_size 2GB
maintenance_work_mem 512MB
checkpoint_segments 32
checkpoint_completion_target 0.9
wal_buffer 8MB
commit_delay 10
commit_siblings 4

  1. 表结构:

CREATE TABLE sys_document
(
id serial NOT NULL, -- 自增主键
doc_content_plain character varying, -- 文本原文
doc_content_plain_tsvector tsvector, -- 文本的搜索分词
doc_content_bin bytea, -- 文本的二进制原文
href character varying, -- 设计用来网络访问的url
created_at timestamp without time zone -- 创建时间
)

  1. 全文检索的相关扩展

采用了zhparser做中文分词扩展

  1. 性能问题:任何操作都非常慢

例如:UPDATE sys_document SET href = ''; (6个小时)

例如:UPDATE sys_document SET doc_content_plain_tsvector = to_tsvector('testzhcfg', doc_content_plain character); (运行了2天,没有结果,于是停掉)

例如:CREATE INDEX sys_document_doc_content_plain_tsvector_idx ON sys_document USING gin(to_tsvector('testzhcfg', doc_content_plain character)); (3天了,还在运行)

请问,这个方案的瓶颈可能在哪里呢?是方案本身有问题吗?

取消 提交回答
全部回答(1)
相关问答

1

回答

为什么说5G SA(独立组网)为端到端网络切片技术、多接入边缘计算技术的实现以及面向行业的应用创造了

2022-04-14 09:08:01 142浏览量 回答数 1

1

回答

postgresql最好的后台服务器是postgrest还是nodejs

2019-11-28 13:42:06 333浏览量 回答数 1

1

回答

安装好之后进不去,postgres初始密码多少啊 ...

2019-11-27 15:56:34 166浏览量 回答数 1

1

回答

【精品锦集】postgresql热门回答02

2019-09-03 13:04:07 621浏览量 回答数 1

0

回答

安骑士日志检索界面没有日志投递按钮

2018-08-15 11:47:56 414浏览量 回答数 0

0

回答

钉邮绑定Domino企业邮箱问题

2018-05-09 17:17:57 2065浏览量 回答数 0

0

回答

修改一行代码提升 Postgres 性能 100 倍?

2016-06-23 16:59:22 2609浏览量 回答数 0

1

回答

android new Handler().postDelayed()问题

2016-06-14 11:42:13 2114浏览量 回答数 1

3

回答

关于postgresql运算符计算问题

2016-03-04 18:16:29 3993浏览量 回答数 3

2

回答

求教postgresql的全文索引

2015-07-20 11:43:28 4837浏览量 回答数 2
+关注
0
文章
4
问答
问答排行榜
最热
最新
相关电子书
更多
低代码开发师(初级)实战教程
立即下载
阿里巴巴DevOps 最佳实践手册
立即下载
冬季实战营第三期:MySQL数据库进阶实战
立即下载