阿里云飞天大数据产品价值解读——《一站式高质量搜索开放搜索》

本文涉及的产品
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
智能开放搜索 OpenSearch向量检索版,4核32GB 1个月
OpenSearch LLM智能问答版免费试用套餐,存储1GB首月+计算资源100CU
简介: 随着研发技术的发展,开发者对内容、工具、平台等的一站式需求愈加强烈。为了构建更加高效和高质量的一站式大数据搜索产品,阿里云将一站式搜索服务的核心着眼于实现高质量以及开放式搜索。本次直播将由阿里云智能-高级产品专家染天为大家全面解析OpenSearch核心能力、搜索体验、价值评估并分享典型案例

演讲嘉宾简介:阿里云智能高级产品专家——吴世龙(染天)
以下内容根据演讲视频以及PPT整理而成。
观看回放:https://yq.aliyun.com/live/43343

本次分享主要围绕以下三个方面:
一、如何评估搜索质量、体验与业务价值
二、OpenSearch背景与核心能力介绍
三、典型案例


一、如何评估搜索质量、体验与业务价值

1.搜索-无处不在
生活中多种不同场景需要进行搜索,在企业内部产品中也需要使用多种搜索功能,方便用户快捷地获取企业相关商品、服务、内容等信息。搜索在不同的企业业务中的角色可能有所不同。如下图所示,搜索在电商行业是十分重要的业务流量转化入口,在其他领域也必不可少。
搜索是用户获取信息的基础手段与能力,如果搜索不好用,用户信任度必会降低。如果搜索在某业务场景中使用不多,建议衡量业务的全站流量结构。
image.png
2. 评估搜索质量、体验与业务价值
六成左右客户不清楚如何评估搜索质量、体验与业务价值,那么引出以下问题。

  • 搜索的业务价值驱动力是什么?搜索在企业内部的业务价值驱动一般依靠被动的Bad case、KPI或业务需求。依靠Bad case驱动,搜索结果具有随机性,不固定时间地点场合,搜索体验差。KPI指标判断,容易片面和不知所以然。依靠业务需求指业务方或运营指明将某些搜索结果置于前排,意味着结果排序相关性势必会完全依赖于业务方经验而无法客观的保障用户的体验与业务转化,不具备可控性。以上三种业务价值驱动方式都存在较大问题。
    目前许多企业的做法是根据上述所谓的内部搜索业务价值驱动力,做召回、排序、业务需求以及扩展搜索历史等功能。
  • 如何衡量?主观?客观?如果明确了搜索的业务价值驱动力,如何衡量驱动效果,即业务价值?具有客观的体系化衡量手段才有可能实现客观的判断。
    下图所列举为一套以淘宝内部为典型的搜索上线流程。首先需要有监控/评估搜索用户体验的方法,周期性评测用户体验。通过监控/评估明确迭代/专项。在上线前做一些A/B Test或灰度测试,如果没有问题可全量上线,并监控线上效果。例如翻页率下降,说明用户以往搜索10页才能找到的内容现在1、2页就可以找到,搜索体验提升。

该链路是主动监控、评估搜索业务价值的,好的驱动力应该是高效的体系化的持续化的实现交付价值。
那么如何衡量搜索业务价值?该链路源头是监控/评估能力,需要有体系化、专业的报表与评估服务。报表是客观性数据,只能反映果而不能体现因,评估服务是人工主观评估服务。监控/评估取代了所谓Bad case、KPI、业务需求,更加体系化地衡量搜索体验。

image.png

如下图所示,OpenSearch报表评估提供5大维度的30+指标。报表只能体现整体结果,而局部效果的评估可以根据大量指标从不同视角得出不同结论。五大维度分为流量指标、点击类指标、用户分析类指标、Query分析类指标、成交指标,核心指标由其提炼而来。
以往每天上班第一件事是查看关键指标,如发现可能存在问题,需要检查连带影响,确保报表各项核心指标正常后才会展开其他工作。因此该体系化、专业的报表与评估服务不仅带给客户一种技术能力,更使客户能够在平台上完整落地、驱动搜索业务。

image.png

  • 如何高效、可持续、体系化地交付搜索价值?搜索的相关市场、场景、用户、文化一直处于变化中,明确搜索业务价值驱动力、衡量方式后,如何高效、可持续、体系化地交付搜索价值?
    与一般开源不同,OpenSearch提供的不是需要客户自行拼搭开发的零散工具,而是一套完整服务,一切皆为提升业务价值、体现大家的专业能力。OpenSearch服务主要有以下四个特点。第一,免运维,客户只需要提供数据并配置满足自身业务诉求的策略。第二,开箱即用,只需提供数据与配置策略,操作便捷。第三,一站式,提供搜索核心功能、扩展功能。第四,高搜索质量。

下图所示为搜索上线流程,创建应用、上传数据并进行简单调试后即可发布上线。若过程顺利半天即可完成。
image.png

二、OpenSearch背景与核心能力介绍

OpenSearch是阿里巴巴自研的搜索引擎,过去一直支持并服务阿里内部应用,经过千锤百炼才沉淀到可以赋能市场上其他企业。
image.png
搜索的核心是做召回、排序、业务需求以及功能扩展,投入重、依赖多、周期长,一般企业难以投入大规模人力与资源。因此开发性能与体验优秀的搜索引擎并非易事。
image.png
召回核心模块为分析器与查询分析。中文博大精深,易生歧义,分词效果至关重要。召回内置多种分析器,分析语言意图。查询分析提供同义词、纠错、词权重、实体识别、停用词分析等必备功能。
排序方面支持二次排序,是大数据量召回的有效解决方式。还支持类目预测、人气模型,支持表达式以及Cava排序定制。
根据业务需求需要支持混排、打散、词典管理等功能实现。混排指在搜索召回结果中根据业务需求相应展示视频、文字、图片等不同媒体类型结果。例如在淘宝搜索结果中,打散指品牌、价格等打散展示。
扩展即功能性扩展,如A/B Test、搜索框下拉提示、热搜&底纹(默认搜索词)、飘红、Debug工具等。
召回、排序、业务、扩展都是为了服务客户,使客户能以最小成本、最短时间交付高质量业务价值而提供的能力。
1.分析器
分析器是影响搜索效果的基础模块,不同业务场景需要使用不同分析器,需要用户结合自身业务场景自行选择。目前OpenSearch集成了12种分析器供用户选择,用户也可上传自己的分词词条个性化定制分析器。
image.png

下图所示为阿里OpenSearch电商分析器与开源IK分析器对比数据,可见OpenSearch分析器的分词效果相对优于IK开源分析器。该对比随机抽取100个电商类Query,下图列举部分结果。例如925银耳饰,开源IK分析器分词有“银耳”一项,OpenSearch电商分词理解显然更优。
image.png
2.类目预测
用户搜索意图可分为精搜、泛搜,类目预测即预测用户搜索某一Query时目标类目的结果。类目预测并非依靠个人体感,而需要符合市场需求,根据行为数据尽可能快速满足用户需求。
如下图所示,使用类目预测前在淘宝搜索光明,可能出现米、面、奶等多种相关商品。而根据用户点击行为数据,100个用户搜索光明,绝大多数点击的商品是光明牛奶,意味着用户搜索光明通常是搜索光明牛奶,因此使用类目预测后前排推荐商品变化为光明牛奶。
类目预测也可使用纯文本方式。

案例——双面胶:多数时候搜索双面胶指办公用品,然而一段时间内电视剧《双面胶》很热,出现了许多相关周边产品。那么用户在该阶段搜索双面胶想要的商品或许会发生变化,可通过用户行为数据进行类目预测。
案例——播、海贼王、柯南:“播”是一个服装品牌,多数时候需要召回的内容为该品牌服装。海贼王、柯南等Query,需要根据市场需求,通过类目预测提供更合适的结果。
image.png
3.人气模型
淘宝早期搜索结果排序方式非常简单,宝贝发布后上架试7天,剩余下架时间越短排序越靠前,所有卖家都有相同的机会获得流量,对卖家、买家都相对公平。然而该模式无法将价值最大化,并不经济。
因此淘宝很早发布了人气模型,尽可能与市场趋势匹配,使用户更加满意,从而转化为最大价值。用户体验好,对优质卖家、商品也更公平,是当前默认模型。
image.png
4.热搜&底纹
image.png

三、典型案例

1.召回
下图所示站点是以UGC内容为主的论坛。由于站内搜索用户地域表达与文化习惯差异大,易生歧义,导致搜索体验差。因此该类搜索场景要求搜索引擎具备较强的语义理解能力,根据搜索和文档的真实语义进行智能匹配。
词权重分析:如下图所示,搜索问题为“胎停有什么症状”,基于优秀的召回质量,通过词权重分析能够给出较好的结果排序。
拼写纠错、同义词扩大召回:如下图所示,由于用户方言习惯等问题,搜索关键词时将“剖腹产”误输入为“抛妇产”,通过拼写纠错等功能,仍然可以正确识别用户意图,提供相关内容。
**客户评价-1:简单无门槛,连不懂技术的产品经理都可以使用OpenSearch对业务进行迭代,大大缩短了项目的迭代周期。
客户评价-2:提高效率,目前技术团队没有专职优化搜索的技术人员,只是根据项目需求做临时优化即可,省力省心。**
image.png
2.技术类内容社区
某国内最大的中文IT内容社区,涉及众多业务场景,由于是技术类内容社区,需要提供强大、优秀的搜索服务。
该社区花一年时间基于开源自建搜索服务,效果不佳。因此该社区试行OpenSearch。
下图所示为基于开源自建搜索服务与基于OpenSearch服务的搜索效果对比。搜索同一关键词Win10重装,可见基于OpenSearch服务的搜索语义理解更优,提供的搜索结果相关性更高。
由于该社区搜索词专业垂直度高,通用分词不足以支持,需要自定义词典,并结合了阿里NLP通用Query智能分析+人气模型。
效果:对比基于开源自建的搜索服务CTR提升80%+,对比友商CTR提升3%。
image.png


如果你想与更多开发者们进行交流、了解最前沿的搜索与推荐技术,可以钉钉扫码加入社群~

image.png

【开放搜索】新用户活动:阿里云实名认证用户享1个月免费试用~https://www.aliyun.com/product/opensearch

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
5天前
|
人工智能 Cloud Native 数据管理
媒体声音|重磅升级,阿里云发布首个“Data+AI”驱动的一站式多模数据平台
在2024云栖大会上,阿里云瑶池数据库发布了首个一站式多模数据管理平台DMS:OneMeta+OneOps。该平台由Data+AI驱动,兼容40余种数据源,实现跨云数据库、数据仓库、数据湖的统一数据治理,帮助用户高效提取和分析元数据,提升业务决策效率10倍。DMS已服务超10万企业客户,降低数据管理成本高达90%。
|
1天前
|
存储 人工智能 分布式计算
大数据& AI 产品月刊【2024年10月】
大数据& AI 产品技术月刊【2024年10月】,涵盖本月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。
|
7天前
|
分布式计算 Java 开发工具
阿里云MaxCompute-XGBoost on Spark 极限梯度提升算法的分布式训练与模型持久化oss的实现与代码浅析
本文介绍了XGBoost在MaxCompute+OSS架构下模型持久化遇到的问题及其解决方案。首先简要介绍了XGBoost的特点和应用场景,随后详细描述了客户在将XGBoost on Spark任务从HDFS迁移到OSS时遇到的异常情况。通过分析异常堆栈和源代码,发现使用的`nativeBooster.saveModel`方法不支持OSS路径,而使用`write.overwrite().save`方法则能成功保存模型。最后提供了完整的Scala代码示例、Maven配置和提交命令,帮助用户顺利迁移模型存储路径。
|
1月前
|
人工智能 分布式计算 大数据
大数据&AI产品月刊【2024年9月】
大数据& AI 产品技术月刊【2024年9月】,涵盖本月技术速递、2024云栖大会实录、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。
|
16天前
|
Oracle 大数据 数据挖掘
企业内训|大数据产品运营实战培训-某电信运营商大数据产品研发中心
本课程是TsingtaoAI专为某电信运营商的大数据产品研发中心的产品支撑组设计,旨在深入探讨大数据在电信运营商领域的应用与运营策略。通过密集的培训,从数据的本质与价值出发,系统解析大数据工具和技术的最新进展,深入剖析行业内外的实践案例。课程涵盖如何理解和评估数据、如何有效运用大数据技术、以及如何在不同业务场景中实现数据的价值转化。
32 0
|
2月前
|
SQL 人工智能 大数据
首个大数据批流融合国家标准正式发布,阿里云为牵头起草单位!
近日,国家市场监督管理总局、国家标准化管理委员会正式发布大数据领域首个批流融合国家标准 GB/T 44216-2024《信息技术 大数据 批流融合计算技术要求》,该标准由阿里云牵头起草,并将于2025年2月1日起正式实施。
|
28天前
|
SQL 运维 大数据
大数据实时计算产品的对比测评
在使用多种Flink实时计算产品后,我发现Flink凭借其流批一体的优势,在实时数据处理领域表现出色。它不仅支持复杂的窗口机制与事件时间处理,还具备高效的数据吞吐能力和精准的状态管理,确保数据处理既快又准。此外,Flink提供了多样化的编程接口和运维工具,简化了开发流程,但在界面友好度上还有提升空间。针对企业级应用,Flink展现了高可用性和安全性,不过价格因素可能影响小型企业的采纳决策。未来可进一步优化文档和自动化调优工具,以提升用户体验。
109 0
|
28天前
|
SQL 存储 监控
大数据-161 Apache Kylin 构建Cube 按照日期、区域、产品、渠道 与 Cube 优化
大数据-161 Apache Kylin 构建Cube 按照日期、区域、产品、渠道 与 Cube 优化
42 0
|
28天前
|
存储 机器学习/深度学习 分布式计算
大数据技术——解锁数据的力量,引领未来趋势
【10月更文挑战第5天】大数据技术——解锁数据的力量,引领未来趋势
|
7天前
|
数据采集 监控 数据管理
数据治理之道:大数据平台的搭建与数据质量管理
【10月更文挑战第26天】随着信息技术的发展,数据成为企业核心资源。本文探讨大数据平台的搭建与数据质量管理,包括选择合适架构、数据处理与分析能力、数据质量标准与监控机制、数据清洗与校验及元数据管理,为企业数据治理提供参考。
38 1

相关产品

  • 智能开放搜索 OpenSearch