利用Xunsearch搭建搜索引擎、内容搜索实战

简介: 利用Xunsearch搭建搜索引擎、内容搜索实战

Xunsearch 是开源免费、高性能、多功能,简单易用的专业全文检索技术方案,是目前非常知名的开源搜索引擎。


安装完Xunserach,还需要安装PHP SDK,才能进行搜索。

-----

本人已在腾讯云实验室建立了实验,可以直接上机操作。当然,你也可以用自己的服务器进行测试。

实验室地址    https://cloud.tencent.com/developer/labs/lab/10424

-----


软件环境: Centos 7


目录


1.安装 GCC 依赖

2.安装xunsearch

3.安装环境、配置、运行 php sdk

4.导入数据和搜索数据

-------


1,安装 GCC 依赖


任务时间:10min ~ 20min


部分用户在安装时,后面的步骤会出错,是因为安装依赖时没注意到GCC,GCC++,很多教程只给出了一种依赖的安装,结果导致后面出现错误。这里笔者建议,把GCC和GCC++都安装。


安装 GCC 依赖


输入以下命令安装 gcc


1

yum -y install gcc


安装 GCC++ 依赖


输入以下命令安装 gcc++ (可能耗时很久)


1

yum -y install gcc-c++


安装 zlib 模块


输入以下命令进行安装,可能需要等待很久


1

yum -y install zlib-devel


2,安装 xunsearch


任务时间:1min ~ 2min


下载、解压安装包


运行以下指令,下载安装包


1

wget http://www.xunsearch.com/download/xunsearch-full-latest.tar.bz2


运行以下指令,解压安装包


1

tar -xjf xunsearch-full-latest.tar.bz2


执行安装


使用以下命令查看目录内容


1

 


找到 xunsearch-full 开头的目录 ,复制目录名称。样例:xunsearch-full-1.4.11


进行安装


打开解压包目录(版本不一样,目录名称不一样,以本机解压名称为准)


1

cd xunsearch-full-1.4.11


执行安装


1

sh setup.sh


输入安装目录


  • 如无意外,终端将出现安装目录提示。(这一步耗时较多,请耐心等候)
  • 请输入


1

/user/local/xunsearch


  • 这里要求目录为 /user/local/xunsearch
  • 默认目录可能为 [/usr/local/xunsearch]
  • 注意是这里要求为 user 而不是 usr
  • 设置名称不是强制,是为了方便
  • 稍等片刻输入 y 再次确认。


如无错误,将出现以下内容


微信图片_20220426095928.png


进行配置、启动


打开目录


1

cd /user/local/xunsearch


记下你的ip <您的 CVM IP 地址> 后面会用到。

启动xunsearch的方法有四种,现在按我的方法进行启动,其它方法在后面补全。


复制以下命令到终端上运行。


1

bin/xs-ctl.sh -b local start // 监听在本地回环地址 127.0.0.1 上


出现以下内容表示成功


微信图片_20220426095932.png

其它启动 xunsearch 的方式(替换成你的ip) -- 这里可以不管


bin/xs-ctl.sh -b local start // 监听在本地回环地址 127.0.0.1 上 
bin/xs-ctl.sh -b inet start // 监听在所有本地 IP 地址上 
bin/xs-ctl.sh -b <您的 CVM IP 地址> start // 监听在服务器 IP 上 
bin/xs-ctl.sh -b unix start // 分别监听在 tmp/indexd.sock tmp/searchd.sock


3,安装环境、配置、运行 php sdk


任务时间:10min ~ 20min


xunsearch 已经安装完毕,但是还需要安装环境,然后在 mysql 中新建一个表。 这一步比较麻烦。 所以我们利用控制面板完成。


安装控制面板


耗时较长,可能需要 10-20 分钟。


1

yum install -y wget && wget -O install.sh http://download.bt.cn/install/install.sh && sh install.sh


等待一段时间后,会出现控制面板地址和账号密码

样例如下 Bt-Panel: http://<您的 CVM IP 地址>:8888

username: qbqdkra5

password: eeedd1e8

记下你的账号密码

然后执行以下命令


1

service bt restart


:8888>

然后就可以访问控制面板


安装环境和配置数据库


打开

:8888> 在登陆窗口输入账号密码进行登陆。

在弹出的窗口中,选择 一键安装

(安装环境耗时较长,可能需要 10-20 分钟)


微信图片_20220426095938.png


4,导入数据和搜索数据


任务时间:10min ~ 20min


打开目录


打开 php 目录


1

cd /user/local/xunsearch/sdk/php


显示数据


执行以下命令


1

util/Indexer.php --source=csv --clean demo


命令表示 清除旧数据然后导入新数据


导入数据


复制以下内容,在终端窗口粘贴,然后按下 回车键 ,在按 Ctrl + D 就会结束输入


1,关于 xunsearch 的 DEMO 项目测试,项目测试是一个很有意思的行为!,1314336158
2,测试第二篇,这里是第二篇文章的内容,1314336160
3,项目测试第三篇,俗话说,无三不成礼,所以就有了第三篇,1314336168
4,李白:床前明月光,疑是地上霜,举头望明月,低头思故乡,13016542681
5,李白:君不见黄河之水天上来,奔流到海不复回,16816477956


测试搜索


恭喜你!已经搭建好搜索引擎了!

现在让我们进行搜索吧!!!

复制以下命令进行搜索


1

util//Quest.php demo 项目  //关键词为 项目


看看搜索结果,是不是很震撼~

现在让我们再试试别的关键词吧


1

util//Quest.php demo 李白  //关键词为 李白


只需在上面的显示数据这一步重复,就可以反复测试搜索了。

注意:要在关键词后面加上 一个空格 !才能正常搜索! 如


1

util//Quest.php demo 三 //三的后面加了空格!


这里不是绝对,貌似时偶发情况,有时不加空格是不行的

相关文章
|
6月前
|
存储 搜索推荐 安全
Onlyfans如何使用搜索功能?Onlyfans如何搜索博主?如何在OnlyFans搜索HongkongDoll
本文是一份全面的指南,旨在帮助读者了解如何在OnlyFans平台上有效使用搜索功能,尤其是如何找到特定的博主,比如HongkongDoll。我们深入探讨了OnlyFans的搜索机制,包括其对用户隐私的重视以及因此带来的搜索限制。文章详细介绍了三种主要的搜索方法:使用OnlyFans的官方搜索服务、通过社交媒体链接进行跳转、以及利用第三方搜索引擎如OnlySearch。
|
前端开发 微服务 Python
厉害了!如何在 Gihub 快速搜索开源项目?
很多的小伙伴,经常会有这样的困惑,我看了很多技术的学习文档、书籍、甚至视频,我想动手实践,于是我打开了GitHub,想找个开源项目,进行学习,获取项目实战经验。这个时候很多小伙伴就会面临这样的问题:“我不会搜啊,我该怎么找呀?”,最终只能放弃。相信看完这篇文章,你就可以学会如何精准地在GitHub搜索项目。
|
Web App开发 搜索推荐 Windows
一键搜索多个搜索引擎
一键搜索多个搜索引擎
287 0
|
存储 算法 搜索推荐
【GoDance搜索引擎】搜索引擎集群模块实现笔记
【GoDance搜索引擎】搜索引擎集群模块实现笔记
【GoDance搜索引擎】搜索引擎集群模块实现笔记
html+css实战182-搜索
html+css实战182-搜索
118 0
html+css实战182-搜索
|
算法
百度搜索技巧,精确搜索,搜索指定标题、内容、网址,黑语法搜索入门
百度搜索技巧,精确搜索,搜索指定标题、内容、网址,黑语法搜索入门
259 0
百度搜索技巧,精确搜索,搜索指定标题、内容、网址,黑语法搜索入门
|
数据采集 机器学习/深度学习 编解码
神马搜索如何提升搜索的时效性?
什么是搜索的时效性?有哪些特征?如何优化?本文分享神马搜索在搜索排序时效性问题上的实践和探索,从基础特征优化开始,通过标注数据进行排序和召回模型优化,以及时效性排序的召回体系和收录体系。较长,同学们可收藏后再看。
2987 0
神马搜索如何提升搜索的时效性?
|
数据采集 消息中间件 前端开发
分布式爬虫和搜索的设计与实现
爬取网站,采用流程节点,用来处理摘要计算、关键字计算、相似度计算、热度计算。数据经过流程计算以后,落库,建立倒排索引。搜索根据关键词到倒排索引表可以快速搜索。 实现步骤 1.基础工作:收集一些网址,作为爬虫的入口。种子url表结构: { “_id” : ObjectId(“c54c4352310b3c”), “urlId” : “io563784uiodf7e96bb9i
1554 0
|
UED 搜索推荐
社区产品搜索
本文从知乎、今日头条开始说交互设计的价值,接着谈到阿里星球的前世今生,最后分享了优酷星球的探索,重点通过案例介绍了劝导设计。
369 0
|
自然语言处理 搜索推荐 算法
海量数据搜索---demo展示百度、谷歌搜索引擎的实现
百度、谷歌等网站之所以能很快在海量数据中找到需要的数据,得益于其搜索引擎,本文将介绍搜索引擎的基本知识及中文分词的方法,并通过demo演示如何进行数据检索。