开发者学习笔记【阿里云人工智能工程师ACA认证(2023版):智能开放搜索】
课程地址:https://edu.aliyun.com/course/3112108/lesson/19292
智能开放搜索
提问
大家都有用过浏览器吧,浏览器是我们上网必备的工具,有没有发现有些浏览器开始变得“智能”?浏览器变得越来越懂你,搜索准确度变得很高?这是怎么实现的?
内容介绍
一、智能搜索引擎概述
二、智能搜索引擎的关键技术
三、智能开放搜索相关产品介绍
四、本节回顾
一、智能搜索引擎概述
1.搜索引擎的定义
上网的入口就是搜索引擎,去哪里去找什么东西都是从搜索引擎开始的。
定义:
1、就是根据用户需求与一定算法,运用特定策略从互联网检索出指定信息反馈给用户的一门检索技术;
用户有检索、查阅的需求,搜索引擎帮助用户从互联网快速地检索出指定的信息,之后反馈给用户。
2、能够为用户提供快速、高相关性的信息检索服务;
比如经常用的谷歌、百度等搜索引擎服务都是快速的,“快速的”指在搜索的时候输入要查询内容的关键字,不到一秒就能反馈所要的信息,这个是在海量信息里面查询出来给用户的;响应速度很快;使用搜索引擎时,跟关键字相关的排在前面,很少有人在搜索引擎的结果页面一直翻,他会把跟用户查询的需求最相关的结果优先反馈给用户,这个就是高相关性;我们在使用互联网时,很多时候都是在寻找信息,使用搜索引擎在大部分时间都成了我们进入互联网的一个入口。
3、核心模块一般包括爬虫、索引、检索和排序等。
爬虫的解释:搜索引擎要使用爬虫在互联网上抓取信息,使用的工具就叫爬虫。像谷歌、百度等搜索引擎都有大量爬虫机器人每天工作,不断更新他所获取的互联网的信息,爬虫把互联网的数据抓取之后做索引,为了提升检索的速度。检索是在进行查询的时候的入口,一般搜索引擎的入口比较简单,就是一个文本框。提交查询的关键字,检索的请求提交后,找到检索的结果排序之后呈现内容给用户。检索和排序里有很多技术,怎么样很快速度把最相关的结果反馈给用户。这是搜索引擎的概念和一些基本知识。
2. 智能搜索引擎的定义
智能搜索引擎时建立在搜索引擎的基础上,通过一些改进让搜索引擎变得更加智能。也可以通过定义理解在哪些方面让搜索引擎变得更加智能。
定义:
1、提供用户角色登记、用户兴趣自动识别、内容的语义理解、智能化信息过滤和推送等功能;
让搜索引擎先了解用户,之后搜索引擎根据用户的特征和兴趣开展有针对性的服务。语义理解对改进搜索有很大帮助,比如在搜索关键词“电脑”的时候语义和搜索“计算机”的概念是一样的,如果搜索引擎理解要搜索内容的语义,就能提供更好的服务。
2、以数据挖掘与知识发现为主要手段,加上自然语言理解、智能搜索代理、多媒体信息检索等技术的应用;
3、相对于传统搜索引擎,进一步提高系统性能和检索的精度与效果。
智能搜索引擎把人工智能的技术应用在传统的搜索引擎上,让传统搜索引擎在性能、精度和效果方面得到改进。
二、智能搜索引擎的关键技术
常见的智能搜索引擎关键技术包括全文搜索技术、元搜索技术、目录搜索技术和分布式搜索技术四种。
全文搜索技术:这种搜索方式方便简捷,并容易获得所有相关信息;但是这种方式得到的信息过于庞杂。
一般网络用户适用于全文搜索技术。用户要逐一浏览,甄别所需要的信息。尤其在用户在没有明确的检索意图的时候,这种搜索方式十分有效。
元搜索技术:有利于对基本搜索方式进行全局控制,引导全文搜索引擎的持续改善。
元搜索技术用于广泛准确的搜集信息,全文搜索引擎由于它的性能和信息反馈能力的差异,导致其各有利弊。原搜索引擎的出现解决了这个问题,有利于基本引擎之间优势互补,有利于对基本搜索方式进行全体控制,引导全文搜索引擎的持续改善。
目录搜索技术:对网站内信息整合处理并分目录呈现给用户;
适应范围非常有限。
目录搜索技术时网站内部常用的检索方式,缺点在于用户要了解网站的内容、熟悉模块的构成,需较高的人工成本支持和维护。
分布式搜索技术:适用于有明确搜索意图情况下进行检索;
准确迅速获得相关信息。
根据地域、主题、IP地址和其他划分标准把全网划分成各个区域,在每个区域上设检索服务器,区域检索服务器有搜索机器人、索引搜索软件库和代理组成,有搜索请求后按一定规则分布到不同的检索服务器,根据需求把检索的结果合并再反馈给用户。
三、智能开放搜索相关产品介绍
1. 阿里巴巴问天引擎介绍
阿里巴巴自主研发的大规模分布式搜索引擎;
问天引擎英文名 OpenSearch
支持了淘宝、天猫、菜鸟乃至海外电商在内整个集团的搜索业务,同时也支撑了阿里云上的开放搜索业务;
满足业务高可用、低成本等需求,有高时效性;
能够根据用户业务特点,快速构建搜索服务。
2.阿里巴巴智能开放搜索平台简介
基于阿里巴巴自主研发的大规模分布式搜索引警平台;
承载了阿里巴巴主要搜索业务,包括淘宝、天猫、神马搜索等;
将专业搜索技术简单化、低门格化和低成本化,以低成本实现产品搜索功能并快速迭代。
这个平台又叫 OpenSearch 智能开放,命名有开放的含义。 OpenSearch 有各个行业的查询、语义理解、机器学习、排序算法这些能力。并且提供了充分开放的引擎能力。开发者可以快速的搭建智能搜索的服务。这种专业的搜索技术变得简单、低门槛、低成本。
下图讲 OpenSearch 如何去使用。
OpenSearch 是放在阿里云上面的,搭建搜索服务在阿里云上创建 OpenSearch 的实例,把实例配置,同步上传文档,将业务数据同步上传。然后终端用户通过不同接口(APP/Web/小程序)来使用 OpenSearch 的服务,终端用户就得到搜索的结果。这个过程变得简化,不需要在去研究智能搜索引擎怎么做,输入数据就可以很快建好搜索引擎。
强调:为什么是智能开放的搜索平台?
阿里巴巴在淘宝、天猫、神马等搜索领域有积累,把查询分析的功能、查询词的纠错等都放在了智能开放搜索平台里。还有一些用户可以定制的功能,比如:排序模型、应用结构。 OpenSearch 还有内置的丰富的算法模型服务,可以定制化提升搜索效果,帮助搜索引导与转化,推动业务的持续增长。
四、本节回顾
通过本节的学习,我们学到了:
智能搜索引擎概述
提供内容的语义理解、智能化信息过滤和推送等功能
相对于传统搜索引擎,进一步提高系统性能和检索的精度与效果
智能搜索引擎的关键技术
关键技术主要包括全文搜索技术、元搜索技术、目录搜索技术和分布式搜索技术等
智能开放搜索相关产品介绍
阿里巴巴问天引擎等