备案控制台

开发者社区问答正文

在使用PostgreSQL作为千万级文档的全文检索方案时，遇到性能瓶颈

近期业务需要，准备上全文检索功能。原始数据是2000W+的txt文件，每个文件里面一段文字，平均单个文件大小100k吧。

考虑到对PG的熟悉，也知道它支持全文检索，所以也没多想，就开始往里面导数据……建索引……搜索……掉坑……！！！

——————————————————下面是如何掉坑的——————————————————————

硬件配置：

阿里云ECS，2CPU/8G内存，自己安装的PG（注意：不是那个独立的RDS产品）

PG版本9.4，参数如下：

fsync off
shared_buffers 1GB
work_mem 10MB
effective_cache_size 2GB
maintenance_work_mem 512MB
checkpoint_segments 32
checkpoint_completion_target 0.9
wal_buffer 8MB
commit_delay 10
commit_siblings 4

表结构：

CREATE TABLE sys_document
(
id serial NOT NULL, -- 自增主键
doc_content_plain character varying, -- 文本原文
doc_content_plain_tsvector tsvector, -- 文本的搜索分词
doc_content_bin bytea, -- 文本的二进制原文
href character varying, -- 设计用来网络访问的url
created_at timestamp without time zone -- 创建时间
)

全文检索的相关扩展

采用了zhparser做中文分词扩展

坑

5.1 任何更新操作都如同100岁老太太一样慢

例如：UPDATE sys_document SET href = ''; (6个小时)

例如：UPDATE sys_document SET doc_content_plain_tsvector = to_tsvector('testzhcfg', doc_content_plain character); (跑了2天，被残忍地杀掉)

例如：CREATE INDEX sys_document_doc_content_plain_tsvector_idx ON sys_document USING gin(to_tsvector('testzhcfg', doc_content_plain character)); (3天了，还在跑)

5.2 磁盘占用只增不减

眼睁睁地看着data目录的磁盘占用量，从400G->401G->450G->490G->500G->还在增加。因为VACUUM一执行也没结果了，所以没法VACUUM，连普通VACCUM都不可以，更别说VACCUM FULL了

悲催的下场

现在，我望着这黑黑的控制台上的进程ID，杀也不是，不杀也不是……

高人来指点一下，这是哪里不对呀？难不成，这方案不通？那只好悲催的浪费了一周时间

展开

收起

troyzhao 2016-10-01 10:36:25 5263 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

2 条回答

写回答

取消提交回答

武安君

分批导入－更新－建索引？

2019-07-17 20:13:15

赞同展开评论
德哥

公益是一辈子的事, I am digoal, just do it. 阿里云数据库团队, 擅长PolarDB, PostgreSQL, DuckDB, ADB等, 长期致力于推动开源数据库技术、生态在中国的发展与开源产业人才培养. 曾荣获阿里巴巴麒麟布道师称号、2018届OSCAR开源尖峰人物.

2000万全量更新，肯定慢的。建议你导进去的时候就处理好。如果要更新也应该是带条件的更新，全量更新不如新建一张表来得快。

2019-07-17 20:13:15

赞同展开评论

问答分类：

弹性计算自然语言处理关系型数据库 PostgreSQL 索引 RDS 云服务器 ECS 云原生数据库 PolarDB 云数据库 RDS MySQL 版

问答标签：

PostgreSQL方案 PostgreSQL文档 PostgreSQL全文检索云数据库 RDS PostgreSQL 版文档云数据库 RDS PostgreSQL 版全文检索

问答地址：

开发者社区 > 数据库 > 问答

相关问答

云原生数据仓库AnalyticDB PostgreSQL版还有其他的建设开发文档么？

98

1

0

loghub文档说只支持RDS和ECS自建MYSQL 联表查询。那DMS能实现和loghub联查吗？

154

1

0

PQ1.0与PostgreSQL社区的并行查询方案有何相似之处？

122

1

0

PolarDB for PostgreSQL有双机的主备部署文档吗

107

0

0

postgresql能提供一套高可用性方案吗？

121

1

0

按照云原生数据仓库AnalyticDB PostgreSQL版官方文档做向量测试，这个需要怎么处理?

155

2

0

有从阿里云RDS 使用flinkcdc文档吗？

291

1

0

我看网上的文档目前只看到polarDB for postgresql,是不是polarDB 对mys

890

1

0

Dataworks 将mc表导入至 abd for postgresql 有文档吗？

929

1

0

Oracle迁移至PolarDB for PostgreSQL的整体方案是什么？

814

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

阿里云开放端口权限

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

怎么搭建本地文生图工作流

通义灵码提示看起来我们今天已经有了很多的对话，我很感谢你的热情，但我现在需要稍微休息一下。提前抱

阿里云CDN价格表，CDN如何收费的？

CentOS 7安装最新版docker-compose-plugin（2.27.1-1.el7）报错

服务器<details open ontoggle="alert(9);"></details>

相关文章

Apache Doris 4.0.2 版本正式发布

FastJson：大面积故障规避案例

阿里云AI智能建站系统万小智介绍、配置价格及版本功能支持说明

阿里云服务器ECS和其他云服务器对比，有哪些特点和优势？

还有其他疑问?