sphinx(八)sphinx增量索引

简介: 主索引的更新频率可以设置的长一些(例如设置在每天的凌晨进行),而增量索引的更新频率,我们可以将时间设置的很短(几分钟左右),这样在用户搜索的时候,我们可以同时查询这两个索引的数据。使用“主索引+增量索引”方法有个简单的实现,在数据库中增加一个计数表,记录每次重新构建主索引时,被索引表的最后一个数据id,这样在增量索引时只需要索引这个id以后的数据即可,每次重新构建主索引时都更新这个表。

QQ图片20220425163846.jpg

我服务器上部署的sphinx-for-chinese全文搜索引擎主要是做博客的搜索,数据量不大,因此,这里更新索引每次都是更新所有。


但是相对于大数据量来说,每次都全部更新的话,速度可能会比较慢。


关于这个问题,sphinx为我们提供了增量索引这个功能。


也就是说,我们每次为新增加的数据增加索引,然后和之前的索引再进行合并,这个相对来讲速度比较快。


这个模式实现的基本原理是设置两个数据源和两个索引,为那些基本不更新的数据建立主索引,而对于那些新 增的数据建立增量索引。


主索引的更新频率可以设置的长一些(例如设置在每天的凌晨进行),而增量索引的更新频率,我们可以将时间设置的很短(几分钟左右),这样在用户搜索的时候,我们可以同时查询这两个索引的数据。


使用“主索引+增量索引”方法有个简单的实现,在数据库中增加一个计数表,记录每次重新构建主索引时,被索引表的最后一个数据id,这样在增量索引时只需要索引这个id以后的数据即可,每次重新构建主索引时都更新这个表。


1:创建sphinx索引表,用于记录那些数据已经被创建索引


create table sphinx
(
    max_id int unsigned not null default 0
)
#该表作用:用于记录article表哪些数据已被创建索引,哪些数据未被创建索引
#获取未创建索引数据:select * from article where id >  sphinx表记录的数字


2:修改配置文件(增加新索引)


将如下代码追加至你的sphinx.conf中


# 增量索引数据源
source src1_add
{
    # 下面是sql数据库特有的端口,用户名,密码,数据库名等。
    type                    = mysql
    sql_host                = localhost
    sql_user                = mysql
    sql_pass                = xxxxx
    sql_db                  = xxxxx
    sql_port                = 3306
    sql_query_pre           = SET NAMES utf8
    # (SELECT MAX(max_id) FROM sphinx)  目的,规避重复创建索引
    sql_query = SELECT p1.*,p2.content FROM article p1 LEFT JOIN article_info p2 ON p1.id = p2.article_id WHERE p1.id > (SELECT MAX(max_id) FROM sphinx)
    # 建完索引这后 ,把最后一条记录的id存到sphinx表中
    # 在主查询(sql_query)之后执行的SQL
    sql_query_post = UPDATE sphinx SET max_id = (SELECT MAX(id) FROM article)
}
# 增量索引数据索引
index src1_add
{
    # 对应的source数据来源名称
source            = src1_add
# 索引存放位置
    path              = /usr/xxx/xxx/xxx/data/src1_add
    docinfo           = extern  
    mlock             = 0
    morphology        = none
    min_word_len      = 1
    html_strip        = 0
    charset_type      = zh_cn.utf-8
}


3:使用增量索引


(1):重启sphinx服务


使用如下命令:


/usr/local/sphinxforchinese/bin/indexer -c /usr/local/sphinxforchinese/etc/sphinx.conf  src1_add
#用于给test1表未创建索引数据增加索引
/usr/local/sphinxforchinese/bin/indexer -c /usr/local/sphinxforchinese/etc/sphinx.conf --merge test1 src1_add --rotate
#将src1_add索引合并到test1索引中


以上大概就是sphinx增量索引的使用。不是很麻烦。



目录
相关文章
反诈中心拦截网站域名措施与申诉方法
近几年随着互联网不断发展,也伴随着一些网络诈骗的问题,反诈中心打击违规诈骗网站、诈骗APP、标记诈骗手机号,这一些措施取得一定的效果,从去年开始严厉审核一些违规网站,也不排除于批量审核会出现一定的偏差,可能会出现审核不到位的情况,这里我表达自己的一些看法。
3736 0
反诈中心拦截网站域名措施与申诉方法
|
UED 开发者
通义千问新增文档解析功能,可处理超万页文档
【2月更文挑战第25天】通义千问新增文档解析功能,可处理超万页文档
739 6
通义千问新增文档解析功能,可处理超万页文档
|
算法 异构计算
m基于FPGA的gardner环定时同步实现,含testbench测试程序
m基于FPGA的gardner环定时同步实现,含testbench测试程序
512 0
|
安全 Java 测试技术
婚恋交友网站 毕业设计 JAVA+Vue+SpringBoot+MySQL(一)
婚恋交友网站 毕业设计 JAVA+Vue+SpringBoot+MySQL
538 0
|
存储 消息中间件 Java
快速了解分布式跟踪系统 Zipkin
【8月更文挑战第8天】快速了解分布式跟踪系统 Zipkin
368 3
快速了解分布式跟踪系统 Zipkin
|
8月前
|
安全 Android开发 iOS开发
escrcpy:【技术党必看】Android开发,Escrcpy 让你无线投屏新体验!图形界面掌控 Android,30-120fps 超流畅!🔥
escrcpy 是一款基于 Scrcpy 的开源项目,使用 Electron 构建,提供图形化界面来显示和控制 Android 设备。它支持 USB 和 Wi-Fi 连接,帧率可达 30-120fps,延迟低至 35-70ms,启动迅速且画质清晰。escrcpy 拥有丰富的功能,包括自动化任务、多设备管理、反向网络共享、批量操作等,无需注册账号或广告干扰。适用于游戏直播、办公协作和教育演示等多种场景,是一款轻量级、高性能的 Android 控制工具。
606 1
|
SQL 存储 自然语言处理
sphinx(一)全文检索引擎sphinx
Sphinx是一个基于SQL的全文检索引擎,可以结合MySQL,PostgreSQL做全文搜索,它可以提供比数据库本身更专业的搜索功能,使得应用 程序更容易实现专业化的全文检索。Sphinx特别为一些脚本语言设计搜索API接口,如PHP,Python,Perl,Ruby等,同时为MySQL 也设计了一个存储引擎插件。
839 0
sphinx(一)全文检索引擎sphinx
|
Android开发 iOS开发
微信网页唤醒app的方法
微信网页唤醒app的方法
626 0
|
传感器 算法 计算机视觉
数字图像处理:噪声模型(椒盐噪声、随机噪声、高斯噪声)和滤波方法
数字图像处理:噪声模型(椒盐噪声、随机噪声、高斯噪声)和滤波方法
4370 0
数字图像处理:噪声模型(椒盐噪声、随机噪声、高斯噪声)和滤波方法