新版本发布 | 开放搜索的统一召回引擎实践-阿里云开发者社区

开发者社区> 搜索与推荐技术> 正文
登录阅读全文

新版本发布 | 开放搜索的统一召回引擎实践

简介: 阿里云开放搜索统一召回引擎,搜索召回环节同时支持阿里云自研Ha3引擎与阿里云Elasticsearch引擎,并提供多行业的搜索算法能力,助力企业高效实现搜索效果深度优化

特邀嘉宾:

邢少敏(多愚)-阿里巴巴高级技术专家

视频地址:https://yqh.aliyun.com/live/opensearch

搜索面临的挑战

工程挑战

  1. 百万QPS
  • 618、双11等大促活动的高并发访问
  1. 千亿级数据
  • SKU、订单、物流等大数据检索
  1. 高时效
  • 订单、物流类数据时效性要求极高
  1. 高可用
  • 分钟级不可用会导致巨额业务损失
  1. 低延迟
  • 搜索作为流量入口,延迟高会导致交易量下降


算法挑战

  1. 信息规范程度低

比如说拿电商行业来讲,电商行业的商品名称,一般情况下为了提高商品排序,为了让商品排的比较靠前,商品名称会加很多关键字,这样就会导致商品名称不规范,很多可能连语法都不太通,这个时候去分析这些关键词是非常困难的。

例如:

    • 宝宝棉服套装婴幼儿冬装0-1岁3男婴儿棉衣秋冬女保暖棉袄加厚外套;
    • 毛豆新鲜5斤青豆毛豆角甜豆生鲜蔬菜豌豆带壳农家现摘嫩豆荚包邮;
  1. 意图丰富

搜索的时候查询词的意图非常的丰富,然后会有很多不同的这种意图。

例如:

    • 水 --(矿泉水?花露水?洗发水?)
    • 苹果 --(吃的苹果?苹果手机?)
    • 马可菠萝 --(菠萝?马可菠萝火腿肠?)
    • 丝袜奶茶 --(丝袜?奶茶?)
  1. 召回量大,排序难
  • 单次召回千万,有限资源下进行准确排序难

如果说我们处理不好这些问题会发生什么情况呢? 那么如果工程挑战和算法挑战,处理的不好,就会有用户流失的问题。

用户流失观察:

  • 用户搜索某个关键词两次以上依然没有结果将认为平台无此类商品
  • 用户浏览搜索结果超过半分钟仍未找到目标商品将直接跳出
  • 用户浏览搜索结果超过4页仍未找到目标商品将直接跳出



搜索产品和解决方案

关于Elasticsearch

业内最主流的信息检索、分析引擎,DB-Engine指数排行“全球热度No.7数据库,全球热度No.1检索引擎”。广泛的应用在各种业务场景。


阿里云Elasticsearch产品介绍

提供全托管Elastic Stack服务,100%兼容开源,免费提供X-Pack商业插件,即开即用,按需付费。同时深入功能与内核性能优化,提供更丰富的分析检索能力,更安全、高可用服务。


特性及优势

  1. 低成本
  • 免费提供每个节点价值6000美元的X-Pack商业插件
  • 智能运维、高级监控告警、容灾部署等,超低运维成本
  • 针对性场景调优,提高资源利用效率,多种产品价格策略
  1. 功能与性能强劲
  • 日志增强版内核,100%成本降低,100%性能提升
  • 文本、视频、音频、图像,提供最全面的信息检索能力
  • 全面对齐等保2.0要求,企业级数据安全能力
  • 开放的二次开发能力,支持各种业务场景的封装
  1. 品牌背书
  • 阿里云与Elastic战略合作;
  1. 丰富行业经验
  • 为电商,零售,教育,金融,媒体,物流等30个行业提供服务;
  1. 全球服务
  • 服务覆盖全部阿里云数据中心,并且支持本地化专有云交付,和混合云方案

image


阿里云开放搜索产品介绍

开放搜索(OpenSearch)是基于阿里巴巴自主研发的大规模分布式搜索引擎搭建的一站式智能搜索业务开发平台,目前为包括淘宝、天猫在内的阿里集团核心业务提供搜索服务支持。通过内置各行业的查询语义理解、机器学习排序算法等能力,提供充分开放的引擎能力,助力开发者快速搭建智能搜索服务。


应用场景

  • 电商行业: 商品搜索、订单搜索、门店搜索、数据库加速和分析场景
  • 内容行业:新闻搜索、社区搜索、视频搜索、图库搜索
  • 多媒体行业、游戏行业、企业大数据….


核心优势

  • 工程优势:高性能(毫秒级端到端延迟)、高稳定性(99.99%稳定性)、高时效(毫秒级生效);
  • 算法优势:达摩院多年沉淀的NLP技术,多行业打磨沉淀的查询分析、搜索排序能力;
  • 产品优势:低门槛,免运维,开放平台;

image


集团内搜索中台

  • 核心搜索引擎HA3从淘宝天猫搜索孵化而来
  • 集团内1000+业务接入,7000亿+商品/文档被索引,日搜索PV达百亿。
  • 2020年双十一QPS峰值110万+,实时数据更新TPS峰值55万+


开放搜索算法产品化

开放搜索是一个智能搜索产品,在最近几年做了大量的算法产品化的工作,这里面就包括了查询分析,多路召回、智能排序、用户行为、业务开发、效果评测等。image


阿里云搜索服务选型-产品生态

产品选型


开源产品--阿里云Elasticsearch

  • 业界知名度高,搜索首选平台;
  • 开源生态学习门槛低,易于掌握;
  • 插件机制允许自由定制,满足不同业务需求;

阿里自研产品--开放搜索(OpenSearch)

  • 一站式搜索引擎平台服务;
  • 核心引擎HA3为阿里集团核心搜索技术,提供百万QPS查询能力,和千亿级别文档索引能力;
  • 内置QP和排序算法能力以及行业模板,实现垂直行业高质量搜索效果;


应用生态

image


性能差异

image


统一召回引擎

满足不同用户的使用习惯,如果客户从Elasticsearch 进行查询,可以去调用开放搜索里面QP的功能,然后提供查询分析的能力给客户。如果是从开放搜索这块进行查询,可以原生的使用开放搜索查询分析能力。

image


>>如果有搜索效果深度优化需求,可以填写专家咨询问卷,参与试用即可免费获得开放搜索通用分词能力。问卷地址:https://c.tb.cn/F3.05Srxl

如果你想与更多开发者们进行交流、了解最前沿的搜索与推荐技术,可以钉钉扫码加入社群

aa0ec847ab6e4665bd828a63220dac41.png

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

分享:

AI Online Serving,阿里巴巴集团搜索与推荐,算法与工程技术的大本营,大数据深度学习时代的创新主场。

官方博客
最新文章
相关文章
友情链接