企业搜索因为不同的使用场景,具有其自己的特点。相较于大家熟悉和常用的百度、 谷歌等互联网搜素,企业搜索有如下不同: 1.据来源不同: 周知,百度、谷歌等互联网搜索引擎,主要通过网络爬虫抓取互联网上的数据;而企业搜索的数据主要来源于企业自身,由企业自己的数据源提供。
2.数据内容不同: 联网搜索引擎抓取的数据,主要是各个网站公开的各种网页、图片、音频、视频、 文档等;而企业搜素处理的数据主要是企业内部提供的私有信息,如产品信息、项目信 息、内部文档、办公软件、邮件、数据库等等。同时,企业搜索也可以包括公开的各种 数据。
3.数据更新频率不同: 联网搜索抓取数据是爬虫被动执行的,抓取到新的数据需要一定的时间,数据更 新频率由于各种因素存在不确定性,数据更新可能并不及时;而企业搜索的数据源是企 业自主可控的,数据往往是企业主动生成的,数据更新基本是实时的。
4.数据完整性不同: 联网搜索抓取数据,因为各种因素,比如网站列表无法做到完整、网站 Robots 禁止抓取、法律政策等,无法做到抓取和显示所有数据,用户搜索不到需要的数据是正 常现象;而企业搜索的数据都是企业预先设定的,用户搜索的结果应按照设计进行展现, 搜索不到本该展示的数据是不可接受的。
5.面向的用户和需求不同 互联网搜索面向的是大众普通用户,搜素方式方法和搜索结果,一般都不会因个别 用户或部分用户的需求而改变;企业搜索面向的是企业内部用户或是企业某项业务的客 户,在搜索方式上要尽力贴近用户习惯,在搜索结果上要足够完整和准确,能确切表达 业务诉求。
6.搜索结果的可控性不同 使用互联网搜索的用户,搜索出来的结果不会因用户的不同而不同,搜索结果均以 PageRank 算法为基础进行排序展示,所有用户可搜到的结果基本是一致的;而企业搜 索的结果需要根据用户的权限进行控制,不同权限的用户搜索到的结果是不同的,不该 对用户显示的结果不能显示;同时,企业搜索的结果需要能够进行显式控制,比如通过 排序策略、权重策略等,甚至需要直接处理搜索结果从而控制搜索结果
资源来源于《Elastic Stack 实战手册(早鸟版)》下载地址:https://developer.aliyun.com/topic/download?id=1295
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。