博客地址:http://blog.csdn.net/FoxDave
本文参考自微软官方的Chart,记录一下,算是自己对这部分知识的总结。
Microsoft® SharePoint® Server 2013 中的搜索使用新组件进行了 重新设计,从而可帮助在单个服务器场内实现更大冗余,并可在多 个方向上进行扩展。搜索体系结构由协同工作以执行搜索操作的组 件和数据库组成。所有组件均位于应用程序服务器上,而所有数据 库均位于数据库服务器上。
索引和查询体系结构
索引和查询体系结构对搜索查询做出响应并提供搜索结果。它包括 索引组件、索引分区和查询处理组件,所有这些均可根据内容量、 查询量和性能要求来扩展。
爬网和内容处理体系结构
爬网和内容处理体系结构对内容进行爬网,处理内容,然后将内容 传入索引组件。它包括爬网组件、爬网数据库和内容处理组件。这 些组件可以根据爬网量和性能要求来扩展。
分析体系结构
分析体系结构提供搜索分析和使用率分析。它由分析处理组件、分 析报告数据库和链接数据库组成。
搜索管理
搜索管理运行与搜索相关的系统进程。搜索管理体系结构由搜索管 理组件及其相应的数据库组成。
搜索主要部署在SharePoint的应用程序服务器上,并在DB端配有相应的数据库,下面三张图展示了SharePoint服务器与搜索组件之间的关系。
最后我们来看一下SharePoint搜索中端到端的组件交互示意图:
爬网和内容处理
爬网和内容处理体系结构包括爬网组件、爬网数据库和内容处理组件。可以根 据爬网量和性能要求来扩展这两个组件。
1. 关于爬网组件
爬网组件负责对内容源进行爬网。它将已爬网项目 – 实际内容及其关联的元数据 – 传递到内容处理组件。
爬网组件调用与内容源进行交互的连接器或协议处理程序以检索数据。可部署多个爬网组件以同时爬网。
爬网组件使用一个或多个爬网数据库来暂时存储有关已爬网项目的信息并跟踪爬网历史记录。
A. 关于爬网数据库
爬网数据库包含有关已爬网项目的跟踪和历史详细信息。
此数据库存储的信息包括上次爬网时间、上次爬网 ID 和上次爬网期间的更新类型。
2. 关于内容处理组件
内容处理组件置于爬网组件与索引组件之间。它处理已爬网项目并将这些项目传入索引组件。
内容处理组件通过执行文档分析和属性映射之类的操作,将已爬网项目转换成可包含在搜索索引中的项目。
内容处理组件和查询处理组件均执行语言处理。内容处理期间的语言处理示例包括语言检测和实体提取。
内容处理组件将关于链接和URL的信息写入链接数据库。接下来,分析处理组件通过内容处理组件,将与这些链接和URL相关性相关的信息写入搜索索引。
索引和查询处理
索引和查询体系结构包括索引组件、索引分区和查询处理组件,所有这些均可根据内容量、查询量和性能要求来扩展。
4. 关于索引组件
索引组件是索引副本的逻辑表示。在搜索体系结构中,您必须为每个索引副本设置一个索引组件。
索引组件从内容处理组件接收已处理的项目,并将这些项目写入索引文件中。
索引组件从查询处理组件接收查询,并反过来提供结果集。
查询通过查询处理组件发送至索引副本。系统将传入查询路由至索引副本并对其进行负载平衡。
关于索引分区
索引分区是整个搜索索引的逻辑分区。搜索索引是所有索引分区的聚合。
搜索索引可在以下两个方向进行扩展:
索引副本可根据查询负载或容错需要在索引分区中添加。每个索引分区都包含一个或多个索引副本。在一个索引分区中,每个索引副本所含的信息相同。例如,在一个索引分区包含三个索引副本的服务器场中,每个索引副本为总查询的三分之一提供服务。
索引分区可添加用于处理增加的内容量。例如,在包含三个索引分区的服务器场中,每个索引分区均包含整个搜索索引的三分之一。
5. 关于查询处理组件
查询处理组件位于搜索前端与索引组件之间。
查询处理组件分析并处理搜索查询和结果。
查询处理组件和内容处理组件均执行语言处理。查询处理期间的语言处理示例包括分词和词干分解。
当查询处理组件收到来自搜索前端的查询时,它会分析并处理该查询,以尝试优化精度、重新调用和相关性。处理的查询随后被提交至索引组件。
索引组件将根据所处理查询的结果集返回至查询处理组件,后者又反过来处理该结果集,然后将其发送回搜索前端。
分析处理
分析体系结构包括分析处理组件、分析报告数据库和链接数据库。
3. 关于分析处理组件
分析处理组件分析已爬网项目(搜索分析)以及用户与搜索结果的交互方式(使用率分析)。它使用这些信息来提高搜索相关性,并创建搜索报告、建议和深层链接。
此组件将:
通过内容处理组件从所接收的项目中提取搜索分析信息(如链接、定位文本、与人员相关的信息、元数据等),并将这些信息存储在未处理的链接数据库中。
通过事件存储从前端提取使用率分析信息,如某个项目被查看的次数。
分析处理组件分析这两种类型的信息。分析结果随后被返回至要包含在搜索索引中的内容处理组件(使用部分更新)。此外,使用率分析结果存储在分析报告数据库中。
B. 关于链接数据库
链接数据库存储由内容处理组件提取的信息。此外,它还存储关于搜索点击率的信息;人们在搜索结果页单击搜索结果的次数。此信息在未处理的情况下存储。分析处理组件执行分析。
C. 关于分析报告数据库
分析报告数据库存储使用率分析的结果。
此外,分析报告数据库还存储来自不同分析的统计信息。SharePoint 使用这些信息创建显示不同统计信息的 Excel 报表。
搜索管理
搜索管理由搜索管理组件及其相应的数据库组成。
6. 关于搜索管理组件
搜索管理组件负责运行搜索所必需的一些系统进程。
此组件执行设置操作,即添加和初始化其他搜索组件的其他实例。
D. 关于搜索管理数据库
搜索管理数据库存储搜索配置数据,如拓扑、爬网规则、查询规则以及已爬网属性与托管属性之间的映射。