coreseek,php,mysql全文检索部署(二)

本文涉及的产品
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
云数据库 RDS PostgreSQL,集群系列 2核4GB
简介:

5. MySQL数据源配置

如果是MySQL,需要设置读取数据输出字符集为UTF-8;请现将数据的字符集转换为UTF-8或者至少可以输出为UTF-8。


mysql> show variables like 'character_set_%';

+--------------------------+--------------------------------------------+

| Variable_name            | Value                                      |

+--------------------------+--------------------------------------------+

| character_set_client     | utf8                                       |

| character_set_connection | utf8                                       |

| character_set_database   | utf8                                       |

| character_set_filesystem | binary                                     |

| character_set_results    | utf8                                       |

| character_set_server     | utf8                                       |

| character_set_system     | utf8                                       |

| character_sets_dir       | /var/www/dream/mysql/share/mysql/charsets/ |

+--------------------------+--------------------------------------------+



root@CC-57:~# vi /usr/local/coreseek/etc/csft.conf

数据源定义:

source  main

{

     type                             = mysql

     sql_host                        = localhost

     sql_user                        = root

     sql_pass                        = xxxx

     sql_db                            = xxxx

      sql_port                         = 3306

     sql_query_pre                  = SET NAMES utf8                               #命令行查询时,设置正确的字符集,3.2.14开始支持

     sql_query                  = select id, title, connect from tablename     #sql_query第一列id需为整数

sql_query_info            = SELECT * FROM documents WHERE id=$id  #命令行查询时,从数据库读取原始数据信息

}


索引定义:


index main

{

source = main                                                                                                    #对应的source名称

path = /usr/local/coreseek/var/data/main

docinfo = extern

mlock = 0 morphology = none

min_word_len = 1

html_strip = 0

charset_dictpath = /usr/local/mmseg3/etc/                                                          #BSD、Linux环境下设置,/符号结尾

#charset_dictpath = etc/                                                                                      #Windows环境下设置,/符号结尾

charset_type = zh_cn.utf-8

}


重新建立索引:

root@CC-57:~# /usr/local/coreseek/bin/indexer --all

搜索测试:可以支持中文检索

root@CC-57:~# /usr/local/coreseek/bin/search 篮球

words:

1. '篮球': 1250 documents, 1272 hits


6. coreseek实时索引配置

  数据库中的数据很大,然后我有些新的数据后来加入到数据库中,也希望能够检索到,全部重新建立索引很消耗资源,这样需要用到主索引+增量索引的思路来解决,这个思路实现的主要原理就是设置俩个数据源和俩个索引。

a.创建一个索引器

 一个简单的实现是,在数据库中增加一个计数表,记录将文档集分为俩个部分的文档ID,每次重新构建主索引时,更新这个表

先在mysql中插入一个计数表:

mysql> create table sph_counter(counter_id int unsigned auto_increment primary key,max_doc_id int);

mysql> desc sph_counter;

+------------+------------------+------+-----+---------+----------------+

| Field      | Type             | Null | Key | Default | Extra          |

+------------+------------------+------+-----+---------+----------------+

| counter_id | int(10) unsigned | NO   | PRI | NULL    | auto_increment |

| max_doc_id | int(11)          | YES  |     | NULL    |                |

+------------+------------------+------+-----+---------+----------------+

2 rows in set (0.00 sec)


b. 再次修改配置文件

 主数据源,继承主数据源,主索引,继承索引(继承索引也就是增量索引)

 主数据源里面,需要把欲查询语句改成下面的语句

 root@CC-57:~# vi /usr/local/coreseek/etc/csft.conf

 source main {

    把sql_query_pre的语句改成下面的

    sql_query_pre     = replace into sph_counter select 1,max(id) from tablename


    把sql_query 的语句改成下面的

    sql_query = select id, title, connect from tablename

                    where  id <=(select max_doc_id from sph_counter where counter_id=1)

}


继承主数据源

 source delta : main {

         sql_query_pre = SET NAMES utf8

          sql_qurey = select id, title, connect from tablename

                    where  id >(select max_doc_id from sph_counter where counter_id=1)

}

继承索引

index delta : main

{

       source                  = delta

       path                    = /usr/local/coreseek/var/data/delta

#       morphology              = stem_en

}


剩下的基本不变

注意:主source 的select 项要与继承source的select 项匹配,否则合并时会出错

source main: select id, title, connect from tablename

source detal: select id, title, connect from tablename


c. 测试主索引+增量索引

  如果想测试增量索引是否成功,往数据库表中插入数据,查找是否能够检索到,这个时候应该为空,然后再重新单独建立增量   索引

/usr/local/coreseek/bin/indexer     detal

查看是否将新的记录进行了索引,如果成功

此时,再用/usr/local/coreseek/bin/search 工具来检索,能够看到在主索引中检索到的结果为0,而在增量索引中检索到结果,当然前提条件是检索的词只在后添加的数据中存在


d. 实时更新索引


需要建立来个脚本,还要用到计划任务


main.sh     delta.sh  

在增量索引中写下 delta.sh

vi     /usr/local/coreseek/etc/delta.sh

#!/bin/bash

/usr/local/coreseek/bin/indexer delta   --rotate  >> /usr/local/coreseek/var/log/delta.log

在主索引中写下 main.sh

vi     /usr/local/coreseek/etc/main.sh

#!/bin/bash

/usr/local/coreseek/bin/indexer main    --rotate  >> /usr/local/coreseek/var/log/merge.log


chmod a+x   /usr/local/coreseek/etc/delta.sh

chmod a+x   /usr/local/coreseek/etc/main.sh


最后,需要脚本自动运行,实现5分钟建立增量索引 ,每天定时执行一次主索引


crontab -e

*/5 * * * *      /usr/local/coreseek/etc/delta.sh

30 2 * * *      /usr/local/coreseek/etc/main.sh



     本文转自ljl_19880709 51CTO博客,原文链接:http://blog.51cto.com/luojianlong/1345682,如需转载请自行联系原作者





相关实践学习
如何快速连接云数据库RDS MySQL
本场景介绍如何通过阿里云数据管理服务DMS快速连接云数据库RDS MySQL,然后进行数据表的CRUD操作。
全面了解阿里云能为你做什么
阿里云在全球各地部署高效节能的绿色数据中心,利用清洁计算为万物互联的新世界提供源源不断的能源动力,目前开服的区域包括中国(华北、华东、华南、香港)、新加坡、美国(美东、美西)、欧洲、中东、澳大利亚、日本。目前阿里云的产品涵盖弹性计算、数据库、存储与CDN、分析与搜索、云通信、网络、管理与监控、应用服务、互联网中间件、移动服务、视频服务等。通过本课程,来了解阿里云能够为你的业务带来哪些帮助 &nbsp; &nbsp; 相关的阿里云产品:云服务器ECS 云服务器 ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,助您降低 IT 成本,提升运维效率,使您更专注于核心业务创新。产品详情: https://www.aliyun.com/product/ecs
相关文章
|
24天前
|
NoSQL Java 关系型数据库
Liunx部署java项目Tomcat、Redis、Mysql教程
本文详细介绍了如何在 Linux 服务器上安装和配置 Tomcat、MySQL 和 Redis,并部署 Java 项目。通过这些步骤,您可以搭建一个高效稳定的 Java 应用运行环境。希望本文能为您在实际操作中提供有价值的参考。
115 26
|
1月前
|
存储 关系型数据库 MySQL
PHP与MySQL动态网站开发:从基础到实践####
本文将深入探讨PHP与MySQL的结合使用,展示如何构建一个动态网站。通过一系列实例和代码片段,我们将逐步了解数据库连接、数据操作、用户输入处理及安全防护等关键技术点。无论您是初学者还是有经验的开发者,都能从中获益匪浅。 ####
|
2月前
|
安全 关系型数据库 MySQL
PHP与MySQL动态网站开发实战指南####
——深入探索LAMP栈下的高效数据交互与处理技巧 ####
|
1月前
|
Java 关系型数据库 MySQL
如何将Spring Boot + MySQL应用程序部署到Pivotal Cloud Foundry (PCF)
如何将Spring Boot + MySQL应用程序部署到Pivotal Cloud Foundry (PCF)
57 5
|
1月前
|
关系型数据库 MySQL PHP
php实现一个简单的MySQL分页
通过本文的详细步骤和代码示例,我们实现了一个简单的PHP MySQL分页功能。主要步骤包括计算总记录数、设置分页参数、查询当前页的数据以及生成分页链接。这种分页方式适用于大多数Web应用,能够有效提升用户体验和页面响应速度。
28 4
|
2月前
|
SQL 关系型数据库 MySQL
PHP与MySQL的高效协同开发策略####
本文深入探讨了PHP与MySQL在Web开发中的协同工作机制,通过优化配置、最佳实践和高级技巧,展示了如何提升数据库交互性能,确保数据安全,并促进代码可维护性。我们将从环境搭建讲起,逐步深入到查询优化、事务管理、安全防护及性能调优等核心环节,为开发者提供一套实战驱动的解决方案框架。 ####
|
28天前
|
SQL 关系型数据库 MySQL
PHP与MySQL的高效交互:从基础到实践####
本文深入探讨了PHP与MySQL数据库之间的高效交互技术,涵盖了从基础连接到高级查询优化的全过程。不同于传统的摘要概述,这里我们直接以一段精简代码示例作为引子,展示如何在PHP中实现与MySQL的快速连接与简单查询,随后文章将围绕这一核心,逐步展开详细讲解,旨在为读者提供一个从入门到精通的实战指南。 ```php <?php // 数据库配置信息 $servername = "localhost"; $username = "root"; $password = "password"; $dbname = "test_db"; // 创建连接 $conn = new mysqli($se
28 0
|
2月前
|
关系型数据库 MySQL PHP
PHP与MySQL的深度整合:构建高效动态网站####
在当今这个数据驱动的时代,掌握如何高效地从数据库中检索和操作数据是至关重要的。本文将深入探讨PHP与MySQL的深度整合方法,揭示它们如何协同工作以优化数据处理流程,提升网站性能和用户体验。我们将通过实例分析、技巧分享和最佳实践指导,帮助你构建出既高效又可靠的动态网站。无论你是初学者还是有经验的开发者,都能从中获得宝贵的见解和实用的技能。 ####
24 0
|
4月前
|
安全 关系型数据库 MySQL
PHP与MySQL交互:从入门到实践
【9月更文挑战第20天】在数字时代的浪潮中,掌握PHP与MySQL的互动成为了开发动态网站和应用程序的关键。本文将通过简明的语言和实例,引导你理解PHP如何与MySQL数据库进行对话,开启你的编程之旅。我们将从连接数据库开始,逐步深入到执行查询、处理结果,以及应对常见的挑战。无论你是初学者还是希望提升技能的开发者,这篇文章都将为你提供实用的知识和技巧。让我们一起探索PHP与MySQL交互的世界,解锁数据的力量!
|
2月前
|
前端开发 关系型数据库 MySQL
PHP与MySQL动态网站开发实战指南####
【10月更文挑战第21天】 本文将深入浅出地探讨如何使用PHP与MySQL构建一个动态网站,从环境搭建到项目部署,全程实战演示。无论你是编程新手还是希望巩固Web开发技能的老手,都能在这篇文章中找到实用的技巧和启发。我们将一起探索如何通过PHP处理用户请求,利用MySQL存储数据,并最终呈现动态内容给用户,打造属于自己的在线平台。 ####
58 0