开发者社区> 问答> 正文

大量数据如何做匹配检索?

1.一篇文章,文字很多,文中可能含有站内其他文章的标题。
2.想根据其他文章的标题,匹配出来本文匹配的文字加上超链接。
问题:站内文章很多,至少10w条标题需要查询匹配。
如何实现呢?

展开
收起
落地花开啦 2016-02-08 18:58:06 3288 0
1 条回答
写回答
取消 提交回答
  • 公益是一辈子的事, I am digoal, just do it. 阿里云数据库团队, 擅长PolarDB, PostgreSQL, DuckDB, ADB等, 长期致力于推动开源数据库技术、生态在中国的发展与开源产业人才培养. 曾荣获阿里巴巴麒麟布道师称号、2018届OSCAR开源尖峰人物.

    HI, 使用PostgreSQL可以这样来实现,并提供加速。
    首先需要用到中文分词,另外,需要用户自定义词典(即文章标题)。
    生成自定义词典:

    select title from tbl group by title.

    将字典加入自定义词典。
    创建 gin分词index .

    create index idx on tbl using gin(to_tsvector('zhparser',content)) ;

    查询:
    可以在RDS PostgreSQL上试一试。

    select * from tbl where to_tsvector('zhparser',content) @@ to_tsquery('zhparser', '某个标题 || 某个标题 && 某个标题')

    用法参考文档:
    http://www.postgresql.org/docs/9.5/static/functions-textsearch.html

    2019-07-17 18:39:56
    赞同 展开评论 打赏
问答地址:
问答排行榜
最热
最新

相关电子书

更多
《开放搜索查询分析服务架构分享》 立即下载
《开放搜索统一召回引擎实践》 立即下载
RowKey与索引设计:技巧与案例分析 立即下载