近年来,人工智能的快速发展和广泛应用在各个行业中都取得了显著的成果。在搜索领域,阿里云Elasticsearch作为一款功能强大的搜索引擎,一直以来都在为企业提供高效、准确的搜索服务。现在,阿里云作为国内首家上线 Elasticsearch 8.9版本的厂商,在提供 Elasticsearch RelevanceEngine™ (ESRE™) 引擎的基础上,提供增强 AI 的最佳实践与 ES 本身的混合搜索能力,为用户带来了更多创新和探索的可能性。
此次从8.5版本到8.9版本的全新升级,新增了以下重点功能,使得阿里云 Elasticsearch 在向量检索和混合搜索能力都具有显著改善,大大提升了搜索结果的准确性和相关性。
- 支持文本和向量召回结果混排(RRF)。
- 向量最大维度提升到2048。
- 暴力检索性能提升。
- KNN 查询支持多个字段同时查询。
- 内置 ELSER模型。
- 稳定支持 NLP 分布式模型调度管理。
- ……
向量检索---为搜索插上飞跃的翅膀
向量检索作为8.x版本的重要新增能力,突破了传统的基于关键词的搜索,利用机器学习和人工智能的力量,将文本内容转换为向量表示,即将文本数据中的每个单词表示为一个向量,并通过计算向量之间的距离来判断文本之间的相似度来实现检索,从而实现文本的高效检索和处理。相较于传统文本检索,通过增加了单词和文档之间的语义关系,使得搜索的相关性显著提升;同时处理对象从文本到图像、语音等类型的扩展,应用场景的层面也得到了相应的增加;当然向量检索更能够根据用户偏好定制化搜索结果,为用户提供了个性化的搜索体验。
向量检索技术的应用场景非常广泛,包括搜索引擎优化、图像搜索、自然语言处理、推荐系统、情感分析等领域。现阿里云 Elasticsearch 产品已经提供向量检索基础能力,可根据基于 Elasticsearch 向量检索的以文搜图进行体验。
混合搜索 RRF---搜索结果和性能的双重助力
混合搜索 RRF(Reciprocal rank fusion)支持对多种不同方式召回的多个结果集进行综合再排序,返回最终的排序结果。之前 Elasticsearch 已经分别支持基于 BM25 的相关性排序和向量相似度的召回排序,通过 RRF 可以对这两者的结果进行综合排序,使得排序的准确性显著提升。相对于单一搜索搜索技术,混合搜索 RRF 的优势十分明显,可任意组合多个搜索技术并获得综合性搜索结果,使得搜索的准确性和相关性大幅提升,从场景的适应性来看,企业可根据自身业务设计专属搜索方案,自由度也明显提高。关于混合搜索 RRF 在搜索结果准确性和相关性提升的实验验证,可根据 阿里云 Elasticsearch 使用 RRF 混排优化语义查询结果对比进行测试查看,并获得如下结果。
随着新版本的上线,阿里云 Elasticsearch 再次展现了其在搜索领域的不断前进。为用户带来了更加智能化和深层次的搜索体验。未来,阿里云 Elasticsearch 将继续努力创新,为用户带来更多搜索技术的突破和可能性。
Elasticsearch技术社区2群