sphinx(八)sphinx增量索引

简介: 主索引的更新频率可以设置的长一些(例如设置在每天的凌晨进行),而增量索引的更新频率,我们可以将时间设置的很短(几分钟左右),这样在用户搜索的时候,我们可以同时查询这两个索引的数据。使用“主索引+增量索引”方法有个简单的实现,在数据库中增加一个计数表,记录每次重新构建主索引时,被索引表的最后一个数据id,这样在增量索引时只需要索引这个id以后的数据即可,每次重新构建主索引时都更新这个表。

QQ图片20220425163846.jpg

我服务器上部署的sphinx-for-chinese全文搜索引擎主要是做博客的搜索,数据量不大,因此,这里更新索引每次都是更新所有。


但是相对于大数据量来说,每次都全部更新的话,速度可能会比较慢。


关于这个问题,sphinx为我们提供了增量索引这个功能。


也就是说,我们每次为新增加的数据增加索引,然后和之前的索引再进行合并,这个相对来讲速度比较快。


这个模式实现的基本原理是设置两个数据源和两个索引,为那些基本不更新的数据建立主索引,而对于那些新 增的数据建立增量索引。


主索引的更新频率可以设置的长一些(例如设置在每天的凌晨进行),而增量索引的更新频率,我们可以将时间设置的很短(几分钟左右),这样在用户搜索的时候,我们可以同时查询这两个索引的数据。


使用“主索引+增量索引”方法有个简单的实现,在数据库中增加一个计数表,记录每次重新构建主索引时,被索引表的最后一个数据id,这样在增量索引时只需要索引这个id以后的数据即可,每次重新构建主索引时都更新这个表。


1:创建sphinx索引表,用于记录那些数据已经被创建索引


create table sphinx
(
    max_id int unsigned not null default 0
)
#该表作用:用于记录article表哪些数据已被创建索引,哪些数据未被创建索引
#获取未创建索引数据:select * from article where id >  sphinx表记录的数字


2:修改配置文件(增加新索引)


将如下代码追加至你的sphinx.conf中


# 增量索引数据源
source src1_add
{
    # 下面是sql数据库特有的端口,用户名,密码,数据库名等。
    type                    = mysql
    sql_host                = localhost
    sql_user                = mysql
    sql_pass                = xxxxx
    sql_db                  = xxxxx
    sql_port                = 3306
    sql_query_pre           = SET NAMES utf8
    # (SELECT MAX(max_id) FROM sphinx)  目的,规避重复创建索引
    sql_query = SELECT p1.*,p2.content FROM article p1 LEFT JOIN article_info p2 ON p1.id = p2.article_id WHERE p1.id > (SELECT MAX(max_id) FROM sphinx)
    # 建完索引这后 ,把最后一条记录的id存到sphinx表中
    # 在主查询(sql_query)之后执行的SQL
    sql_query_post = UPDATE sphinx SET max_id = (SELECT MAX(id) FROM article)
}
# 增量索引数据索引
index src1_add
{
    # 对应的source数据来源名称
source            = src1_add
# 索引存放位置
    path              = /usr/xxx/xxx/xxx/data/src1_add
    docinfo           = extern  
    mlock             = 0
    morphology        = none
    min_word_len      = 1
    html_strip        = 0
    charset_type      = zh_cn.utf-8
}


3:使用增量索引


(1):重启sphinx服务


使用如下命令:


/usr/local/sphinxforchinese/bin/indexer -c /usr/local/sphinxforchinese/etc/sphinx.conf  src1_add
#用于给test1表未创建索引数据增加索引
/usr/local/sphinxforchinese/bin/indexer -c /usr/local/sphinxforchinese/etc/sphinx.conf --merge test1 src1_add --rotate
#将src1_add索引合并到test1索引中


以上大概就是sphinx增量索引的使用。不是很麻烦。



目录
相关文章
|
6月前
|
API Python
|
SQL 存储 自然语言处理
sphinx(一)全文检索引擎sphinx
Sphinx是一个基于SQL的全文检索引擎,可以结合MySQL,PostgreSQL做全文搜索,它可以提供比数据库本身更专业的搜索功能,使得应用 程序更容易实现专业化的全文检索。Sphinx特别为一些脚本语言设计搜索API接口,如PHP,Python,Perl,Ruby等,同时为MySQL 也设计了一个存储引擎插件。
679 0
sphinx(一)全文检索引擎sphinx
|
存储 SQL 自然语言处理
sphinx全文检索引擎
sphinx全文检索引擎
170 0
|
自然语言处理 PHP 索引
sphinx(七)sphinx匹配模式
Sphinx匹配模式 语法: $sp -> SetMatchMode(常量) SPH_MATCH_ALL 匹配所有词(默认) SPH_MATCH_ANY 匹配一个词 SPH_MATCH_PHRASE 匹配整一个词 SPH_MATCH_BOOLEAN 将查询看作一个布尔表达式 SPH_MATCH_EXTENDED 查询看做一个sphinx的表达式
269 0
sphinx(七)sphinx匹配模式
|
索引
sphinx(六)sphinx 配置文件sphinx.conf配置项全解析
source:数据源,数据是从什么地方来的。 index:索引,当有数据源之后,从数据源处构建索引。索引实际上就是相当于一个字典检索。有了整本字典内容以后,才会有字典检索。 searchd:提供搜索查询服务。它一般是以deamon的形式运行在后台的。 indexer:构建索引的服务。当要重新构建索引的时候,就是调用indexer这个命令。
321 0
sphinx(六)sphinx 配置文件sphinx.conf配置项全解析
|
关系型数据库 MySQL 测试技术
|
关系型数据库 MySQL PHP