新版本发布 | 开放搜索的统一召回引擎实践

本文涉及的产品
推荐全链路深度定制开发平台,高级版 1个月
简介: 阿里云开放搜索统一召回引擎,搜索召回环节同时支持阿里云自研Ha3引擎与阿里云Elasticsearch引擎,并提供多行业的搜索算法能力,助力企业高效实现搜索效果深度优化

特邀嘉宾:

邢少敏(多愚)-阿里巴巴高级技术专家

视频地址:https://yqh.aliyun.com/live/opensearch

搜索面临的挑战

工程挑战

  1. 百万QPS
  • 618、双11等大促活动的高并发访问
  1. 千亿级数据
  • SKU、订单、物流等大数据检索
  1. 高时效
  • 订单、物流类数据时效性要求极高
  1. 高可用
  • 分钟级不可用会导致巨额业务损失
  1. 低延迟
  • 搜索作为流量入口,延迟高会导致交易量下降


算法挑战

  1. 信息规范程度低

    比如说拿电商行业来讲,电商行业的商品名称,一般情况下为了提高商品排序,为了让商品排的比较靠前,商品名称会加很多关键字,这样就会导致商品名称不规范,很多可能连语法都不太通,这个时候去分析这些关键词是非常困难的。

例如:

  • 宝宝棉服套装婴幼儿冬装0-1岁3男婴儿棉衣秋冬女保暖棉袄加厚外套;
  • 毛豆新鲜5斤青豆毛豆角甜豆生鲜蔬菜豌豆带壳农家现摘嫩豆荚包邮;
  1. 意图丰富

搜索的时候查询词的意图非常的丰富,然后会有很多不同的这种意图。

例如:

  • 水 --(矿泉水?花露水?洗发水?)
  • 苹果 --(吃的苹果?苹果手机?)
  • 马可菠萝 --(菠萝?马可菠萝火腿肠?)
  • 丝袜奶茶 --(丝袜?奶茶?)
  1. 召回量大,排序难
  • 单次召回千万,有限资源下进行准确排序难

 

如果说我们处理不好这些问题会发生什么情况呢? 那么如果工程挑战和算法挑战,处理的不好,就会有用户流失的问题。

用户流失观察:

  • 用户搜索某个关键词两次以上依然没有结果将认为平台无此类商品
  • 用户浏览搜索结果超过半分钟仍未找到目标商品将直接跳出
  • 用户浏览搜索结果超过4页仍未找到目标商品将直接跳出



搜索产品和解决方案

关于Elasticsearch

   业内最主流的信息检索、分析引擎,DB-Engine指数排行“全球热度No.7数据库,全球热度No.1检索引擎”。广泛的应用在各种业务场景。


阿里云Elasticsearch产品介绍

    提供全托管Elastic Stack服务,100%兼容开源,免费提供X-Pack商业插件,即开即用,按需付费。同时深入功能与内核性能优化,提供更丰富的分析检索能力,更安全、高可用服务。


特性及优势

  1. 低成本
  • 免费提供每个节点价值6000美元的X-Pack商业插件
  • 智能运维、高级监控告警、容灾部署等,超低运维成本
  • 针对性场景调优,提高资源利用效率,多种产品价格策略
  1. 功能与性能强劲
  • 日志增强版内核,100%成本降低,100%性能提升
  • 文本、视频、音频、图像,提供最全面的信息检索能力
  • 全面对齐等保2.0要求,企业级数据安全能力
  • 开放的二次开发能力,支持各种业务场景的封装
  1. 品牌背书
  • 阿里云与Elastic战略合作;
  1. 丰富行业经验
  • 为电商,零售,教育,金融,媒体,物流等30个行业提供服务;
  1. 全球服务
  • 服务覆盖全部阿里云数据中心,并且支持本地化专有云交付,和混合云方案


阿里云开放搜索产品介绍

   开放搜索(OpenSearch)是基于阿里巴巴自主研发的大规模分布式搜索引擎搭建的一站式智能搜索业务开发平台,目前为包括淘宝、天猫在内的阿里集团核心业务提供搜索服务支持。通过内置各行业的查询语义理解、机器学习排序算法等能力,提供充分开放的引擎能力,助力开发者快速搭建智能搜索服务。


应用场景

  • 电商行业: 商品搜索、订单搜索、门店搜索、数据库加速和分析场景
  • 内容行业:新闻搜索、社区搜索、视频搜索、图库搜索
  • 多媒体行业、游戏行业、企业大数据….


核心优势

  • 工程优势:高性能(毫秒级端到端延迟)、高稳定性(99.99%稳定性)、高时效(毫秒级生效);
  • 算法优势:达摩院多年沉淀的NLP技术,多行业打磨沉淀的查询分析、搜索排序能力;
  • 产品优势:低门槛,免运维,开放平台;


集团内搜索中台

  • 核心搜索引擎HA3从淘宝天猫搜索孵化而来
  • 集团内1000+业务接入,7000亿+商品/文档被索引,日搜索PV达百亿。
  • 2020年双十一QPS峰值110万+,实时数据更新TPS峰值55万+


开放搜索算法产品化

    开放搜索是一个智能搜索产品,在最近几年做了大量的算法产品化的工作,这里面就包括了查询分析,多路召回、智能排序、用户行为、业务开发、效果评测等。


阿里云搜索服务选型-产品生态

产品选型


开源产品--阿里云Elasticsearch

  • 业界知名度高,搜索首选平台;
  • 开源生态学习门槛低,易于掌握;
  • 插件机制允许自由定制,满足不同业务需求;

阿里自研产品--开放搜索(OpenSearch)

  • 一站式搜索引擎平台服务;
  • 核心引擎HA3为阿里集团核心搜索技术,提供百万QPS查询能力,和千亿级别文档索引能力;
  • 内置QP和排序算法能力以及行业模板,实现垂直行业高质量搜索效果;


应用生态


性能差异


统一召回引擎

满足不同用户的使用习惯,如果客户从Elasticsearch 进行查询,可以去调用开放搜索里面QP的功能,然后提供查询分析的能力给客户。如果是从开放搜索这块进行查询,可以原生的使用开放搜索查询分析能力。


>>如果有搜索效果深度优化需求,可以填写专家咨询问卷,参与试用即可免费获得开放搜索通用分词能力。问卷地址:https://c.tb.cn/F3.05Srxl

如果你想与更多开发者们进行交流、了解最前沿的搜索与推荐技术,可以钉钉扫码加入社群

aa0ec847ab6e4665bd828a63220dac41.png

相关实践学习
使用阿里云Elasticsearch体验信息检索加速
通过创建登录阿里云Elasticsearch集群,使用DataWorks将MySQL数据同步至Elasticsearch,体验多条件检索效果,简单展示数据同步和信息检索加速的过程和操作。
ElasticSearch 入门精讲
ElasticSearch是一个开源的、基于Lucene的、分布式、高扩展、高实时的搜索与数据分析引擎。根据DB-Engines的排名显示,Elasticsearch是最受欢迎的企业搜索引擎,其次是Apache Solr(也是基于Lucene)。 ElasticSearch的实现原理主要分为以下几个步骤: 用户将数据提交到Elastic Search 数据库中 通过分词控制器去将对应的语句分词,将其权重和分词结果一并存入数据 当用户搜索数据时候,再根据权重将结果排名、打分 将返回结果呈现给用户 Elasticsearch可以用于搜索各种文档。它提供可扩展的搜索,具有接近实时的搜索,并支持多租户。
目录
相关文章
|
新零售 自然语言处理 运维
一文详解 | 开放搜索兼容Elasticsearch做召回引擎
开放搜索发布开源兼容版,支持阿里云Elasticsearch做搜索召回引擎,本文详细介绍阿里云ES用户如何通过接入开放搜索兼容版丰富行业分词库,提升查询语义理解能力,无需开发、算法投入,即可获得淘系同款搜索效果。
1263 0
|
自然语言处理 达摩院 搜索推荐
【新版本】开放搜索开源兼容版,支持Elasticsearch做搜索召回引擎
9月15日阿里云开放搜索重磅发布【开源兼容版】,搜索召回环节同时支持阿里云自研Ha3引擎与阿里云Elasticsearch引擎,并提供多行业的搜索算法能力,助力企业高效实现搜索效果深度优化。
660 0
【新版本】开放搜索开源兼容版,支持Elasticsearch做搜索召回引擎
|
自然语言处理 达摩院 搜索推荐
阿里云开放搜索发布开源兼容版,支持Elasticsearch做搜索召回引擎
9月15日,阿里云开放搜索正式上线开源兼容版,搜索召回环节同时支持阿里云自研Ha3引擎与阿里云Elasticsearch引擎,并提供多行业的搜索算法能力,助力企业高效实现搜索效果深度优化。
692 0
阿里云开放搜索发布开源兼容版,支持Elasticsearch做搜索召回引擎
|
存储 达摩院 自然语言处理
【新功能】开放搜索多路召回技术解读
多路召回就是指采用不同的策略、特征或者简单模型,分别召回一部分候选集,然后再把这些候选集混合在一起后供后续排序模型使用的策略,本文将介绍开放搜索平台上的多路召回技术是如何深度提升搜索效果的~
4229 0
【新功能】开放搜索多路召回技术解读
|
存储 分布式计算 自然语言处理
基于MaxCompute+开放搜索的电商、零售行业搜索开发实践
搜索一直是电商行业流量来源的核心入口之一,如何搭建电商行业搜索并提升搜索效果,一直是电商行业开发者努力攻克的难题。基于传统数据库或开源引擎虽然能够搭建基础搜索服务,但随着商品数据的增多和业务流量的增长,难免会遇到性能瓶颈和效果瓶颈。另一方面,随着电商、直播、云计算等技术的不断发展,越来越多的传统零售企业正在进行互联网云上转型,特别是受近两年疫情等因素的影响,APP、小程序已经成为零售企业重要的业务增长来源。在此背景下,如何快速搭建高效搜索服务成为零售行业上云及转型的难题。
1120 0
基于MaxCompute+开放搜索的电商、零售行业搜索开发实践
|
机器学习/深度学习 自然语言处理 运维
开放搜索电商行业模版驱动业务增长实践
阿里巴巴技术专家介绍如何通过开放搜索电商行业增强版,快速构建更高水准的搜索服务,带动业务指数级增长。
1844 0
开放搜索电商行业模版驱动业务增长实践
|
机器学习/深度学习 自然语言处理 文字识别
算法专家解读 | 开放搜索教育搜题能力和实践
达摩院算法专家--徐光伟(昆卡)聚焦在线教育行业的拍照搜题场景,介绍如何应用开放搜索来构建更高搜索性能及搜题准确率的搜题系统,从而助力在线教育行业客户掌握更高层次用户体验的获客工具。
1337 0
算法专家解读 | 开放搜索教育搜题能力和实践
|
7月前
|
自然语言处理 分布式计算 Java
基于OpenSearch向量检索版和智能问答版搭建企业专属对话搜索系统
本文将介绍如何使用OpenSearch向量检索版和智能问答版,搭建灵活自定义的企业专属对话搜索系统。
1888 1
|
7月前
|
Web App开发 自然语言处理 搜索推荐
基于OpenSearch搭建高质量商品搜索服务
本场景主要介绍开放搜索(OpenSearch)打造独有的电商行业垂直解决方案,模板内置电商查询分析、排序表达式及行业算法能力,沉浸式体验更高性能和效果的智能搜索服务,助力企业在线业务智能增长。
508 0

相关产品

  • 智能开放搜索 OpenSearch