sphinx索引分析续

简介:

4.10 同义词文件/Synonym

from => to
AT &T => AT&T
AT & T => AT & T
standarten fuehrer => Standartenfuehrer
standarten fuhrer => Standartenfuehrer
Ms-Dos => MS-DOS
MS DOS => MS-DOS

5 算法

5.1 字典

double array trie 检索树

5.2 分词算法

5.3 文档id压缩 – Variable Byte Coding

5.4 索引存储 – 多路归并排序

7 创建索引过程

  • 扫描配置文件。
  • 创建程序内部数据结构,schema, mva attr等。
  • 第一次遍历文档记录,连接数据库读取创建索引的记录。
  • 循环分词创建spa, spp文件(临时格式)(如果inline模式只创建spp文件), 如果非inplace模式,那么创建对应 tmp->spa, tmp->spp对应文件。
  • 第二次遍历文档记录,创建mva属性(非field mva attributes)。
  • 多路归并创建spm文件。
  • 更新并创建最终的spa文件,更新mva的位置信息到spa文件。
  • 读取临时格式的spp文件,多路归并创建spi,spd,spp文件。
  • 创建索引头文件sph。
  • 更新索引创建后的信息(例如存储当前已经简历索引的)释放资源

















本文转自张昺华-sky博客园博客,原文链接:http://www.cnblogs.com/bonelee/p/6251094.html ,如需转载请自行联系原作者

相关文章
|
Linux 开发工具 Windows
设备接入--海康摄像头SDK
springboot-对接海康摄像头,兼容window和Linux环境
4752 3
设备接入--海康摄像头SDK
|
11月前
|
机器学习/深度学习 人工智能 搜索推荐
AI时代下的个人发展之路:通过多栈变革实现跨越式成长
随着人工智能(AI)技术的飞速发展,企业和个人面临着前所未有的机遇和挑战。在AI时代,多栈变革成为推动企业和个人发展的关键。对企业而言,AI不仅促进了数据驱动的决策和智能自动化,还推动了产品创新和业务流程优化。而对于个人,AI的崛起提供了通过跨界学习、掌握多项技能及使用AI工具提升效率的机会。本文探讨了AI如何通过多栈变革推动企业和个人的全方位发展,同时也分析了面临的挑战与未来展望。在这个智能化、数据化的时代,只有不断学习与适应的企业和个人,才能抓住AI带来的机遇,迎接更加智能化的未来。
|
人工智能 并行计算 测试技术
AI计算机视觉笔记三十一:基于UNetMultiLane的多车道线等识别
该项目基于开源数据集 VIL100 实现了 UNetMultiLane,用于多车道线及车道线类型的识别。数据集中标注了六个车道的车道线及其类型。项目详细记录了从环境搭建到模型训练与测试的全过程,并提供了在 CPU 上进行训练和 ONNX 转换的代码示例。训练过程约需 4 小时完成 50 个 epoch。此外,还实现了视频检测功能,可在视频中实时识别车道线及其类型。
|
存储 运维 安全
在Linux中,如何使用tcpdump和tshark进行实时数据包捕获?
在Linux中,如何使用tcpdump和tshark进行实时数据包捕获?
|
Kubernetes 容器
安装ipvsadm并且k8s开启IPVS模式
安装ipvsadm并且k8s开启IPVS模式
214 0
|
机器学习/深度学习 自然语言处理 PyTorch
PyTorch搭建RNN联合嵌入模型(LSTM GRU)实现视觉问答(VQA)实战(超详细 附数据集和源码)
PyTorch搭建RNN联合嵌入模型(LSTM GRU)实现视觉问答(VQA)实战(超详细 附数据集和源码)
562 2
|
存储 弹性计算 运维
阿里云「无影云桌面」无需新用户4核8G仅需199元/年
阿里云「无影云桌面」无需新用户4核8G仅需199元/年
1035 0
|
人工智能 固态存储 关系型数据库
阿里云国际短信收费标准表
阿里云国际短信收费标准表,​​阿里云国际短信费用价格表,印度短信0.216元一条、中国香港短信0.33元一条、美国短信0.053元一条、日本短信0.514元一条、俄罗斯短信1.02元一条、印尼短信1.01元一条、意大利短信0.565元一条、伊朗短信0.592元一条,阿里云国际短信支持东南亚、欧洲、非洲、美洲等国家和地区
1001 0
|
JavaScript API
elementUI中的el-date-picker日期月份时间选择器禁用选中当前和以后的日期
elementUI中的el-date-picker日期月份时间选择器禁用选中当前和以后的日期
1436 0
|
机器学习/深度学习 传感器 人工智能
数字孪生的5个成功应用案例
一些企业正在使用数字孪生技术来监控运营、规划预测性维护、改善客户服务,并优化其供应链。本文介绍了企业有效使用数字孪生的五个示例。
2998 0