【活动精彩回顾】搜索&推荐技术分享沙龙电商专场(附视频)

本文涉及的产品
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
推荐全链路深度定制开发平台,高级版 1个月
智能开放搜索 OpenSearch向量检索版,4核32GB 1个月
简介: 有搜索推荐功能需求的用户正在关注什么?怎样正确使用产品达成业务增长?10个用户精选问答送上,你关心的都在这里。同时,为大家带来搜索和推荐领域适用于电商行业的干货内容分享。

1月9日,阿里云搜索&推荐技术分享会顺利举办。活动期间,我们收集了许多来自行业用户的反馈,并从中精选了10个热点问题,请专家做出解答,为读者应用搜索&推荐技术提供参考。同时,我们整理了活动过程中,嘉宾分享的干货内容,以飨读者。

十大精选问答

1、搜索技术具体使用产品以及常用的场景?产品的基本集群规模如何?是否有可替换的开源产品?
答:开放搜索(OpenSearch:https://www.aliyun.com/product/opensearch) 是阿里巴巴自主研发的大规模分布式搜索引擎平台,其核心引擎HA3(问天3)系统为包括淘宝、天猫在内的阿里集团核心业务提供搜索服务支持。集成了智能查询语义理解、机器学习排序算法等能力。与电商行业相关的场景主要包括以下几个:商品搜索、基于地理位置的O2O场景、订单等大数据查询分析。

(1)商品搜索场景:
搜索效果的好坏在商品搜索场景中直接决定着GMV的转化。通常该场景下:数据的更新极快,包括商品的描述、价格等,这些变化需要实时更新到索引中;商品需要在多维度相互比较,比如按价格、按销量进行比较,方便用户做多层次的挑选;用户对商品偏好个性化十足,为了提升效果,需要收集丰富的行为数据设计千人千面的排序算法。
具体请参考文档「基于OpenSearch实现电商场景商品搜索原型」:https://help.aliyun.com/document_detail/99739.html

(2)O2O等基于地理位置的搜索场景:
开放搜索支持类似附近人或地点的搜索。如果希望按照地点或附近人传入的坐标,那么可以使用开放搜索,提高搜索效率,也同时提供排序功能。
使用方法参考:https://help.aliyun.com/document_detail/130253.html

(3)大数据检索场景:
ERP、CRM、物流、订单、日志及后台管理系统是企业基本设施环境,这些场景的共同特点是数据量大、检索及筛选条件复杂,数据库查询性能较差,使用搜索引擎可以满足功能及性能的双项保证。

开放搜索是开箱即用的云搜索托管服务,可以根据用户的实际数据量按需使用,用户只需要管理搜索应用,并不用关心背后的搜索集群的配置和运维问题。

在开源领域,Elasticsearch 和 Solr是常见的选择,他们具备业务开发的灵活度,也是非常成熟的搜索技术。相比开源框架,开放搜索主要在产品易用性、搜索相关性等效果、大数据量下的性能等方面体现自己的产品价值。

2、搜索执行时间过长怎么办?
首先,检查搜索条件设置是否合理。搜索查询的效果主要跟query关键词中命中的文档数有关,命中的文档数越多,系统要进行的计算就越多,那么耗时就会越高。所以优化的一个重要手段就是尽量降低query召回的文档数。可参考文档:https://help.aliyun.com/document_detail/29191.html?spm=a2c4g.11186623.6.753.43344a11efwG0c

其次, 选择合适的应用规格;存储型, 通用型,计算型在相同的条件下,搜索执行时间是依次减少的,可以根据业务的需要选择购买相应的规格。

最后,如果仍存在问题,可以提交工单反馈,具体问题具体分析。

3、搜索召回侧除文本外,还有哪些维度可以提升相关性?
目前提供特征大致有:类目相关性(类目预测),文档的热度(人气模型),地理位置(距离),文本特征(query,doc,query-doc),以及一些基础的功能函数。用户可以通过表达式的方式,自由组合这些特征和文档自身的字段内容对文档算分,进行排序,提升相关性。

Open Search对于几种经典的应用(如论坛、资讯等)提供了表达式模板,用户可根据自己数据的特点,选择合适的表达式模板,并以此为基础进行修改,生成自己的表达式。
具体可见以下文档:https://help.aliyun.com/document_detail/29130.html?spm=a2c4g.11186623.6.598.5677a63dei1lNq

4、能介绍下实体识别大致的实现逻辑吗?以及如何衡量实体识别的效果?
目前实体识别的干预主要包括两个对实体识别结果本身的干预,以及实体类型重要性的干预。当实体识别的结果不准时,应该通过实体识别的干预来进行干预。实体识别使用了标注数据、行业知识、语言模型等数据训练的一个NLP模型。通过对一批标注数据的评测,主要考察了一些重要实体类型的召回率和准确率。

通过创建实体干预的词典,并在查询分析中实体识别中配置相应的干预词典,可以干预实体识别的结果。由于语义实体是和分词器密切相关的,因此,创建实体识别干预词典时,必须选择分词器。且在查询分析配置使用时,只有索引对应的分词器和干预词典的分词器一致,才能被选择使用。
具体可见以下文档:https://help.aliyun.com/document_detail/124934.html

5、搜索场景下如何与推荐相结合? 如何选取与定位推荐的业务提升效果指标,如点击率、购买转化率等等?
搜索、推荐作为引导GMV的重要入口,承载着购买转化的重要作用。搜索发生在用户购买意愿已基本确认时,推荐主要承载引导用户得以“逛起来”并结合长、短期兴趣进行购买预测,对于智能推荐而言,目前可以利用起由搜索触发的点击行为,并作为兴趣学习的重要一环输入。

在选取与定位推荐业务提升效果上,主要以点击率为衡量指标,推荐主要承载起商品分发的能力,至于用户是否收藏、购买也同时受到商品本身配图、评价、质量等多方影响,衡量分发效率直接采用购买转化率有一定的变量因素干扰,但智能推荐也会同时结合收藏、购买、评价等行为表现对商品的质量进行学习并表现在推荐高质量商品的结果上。在推荐分发效率提升的同时,表现为点击率的提升,转化率的提升以及用户驻留时长,留存率的提升等。综上,主要以点击率为衡量指标,其他指标为辅助参考。

6、用户在买完某个商品之后,首页还在持续推荐同类型产品,该问题怎么解决?
这个问题本质与商品的类型有关,对于类似于美妆-口红的商品,购买后的二次推荐也具备极大的复购可能,但对于类似于数码-冰箱的商品,购买后的短期二次推荐基本不具备复购可能。

针对此类问题,智能推荐主要可通过3种方法解决,首先用户具备长期与短期兴趣,推荐的商品本身就不会局限于用户短期购买的商品;其次,利用模型快速学习与更新的能力,实时捕捉用户的行为变化,当曝光已购买同类商品后缺少点击行为,模型会接收到负面的反馈信息,在下一次刷新就会减少此类商品的推荐;最后,可以配置打散的规则,设置一次结果出现的类目分布情况,从而避免用户兴趣过于集中发生过购买行为后即兴趣丢失,不再愿意继续逛下去的问题。

7、直播中说到友盟提供大量的数据积累,但是这些数据对我们客户有什么帮助呢?
推荐效果的好坏是跟数据的质和量紧密相关的,当客户本身行为数据或者画像数据比较稀缺的时候,推荐效果相对也不会特别的好。友盟大数据的能力就是弥补数据侧可能存在的短板问题。相关产品链接,请参考:https://umeng.aliyun.com/product/urec

友盟提供的大数据积累,能够很大程度帮助app、站点等的新用户第一次入站浏览即可准确把握用户的兴趣、喜好、关注内容,可以大幅提升新用户留存、转化、粘性增加的能力。

8、数据安全性如何保证?
开放搜索会对每个访问的请求都会通过阿里云官方颁发给访问者的Access Key Id 和Access Key Secret做身份验证,只有身份验证后的请求才会被开发搜索服务响应处理。用户自身需要对Access Key Id和Access Key Secret严格保密。加密方法见:https://help.aliyun.com/document_detail/54237.html?spm=a2c4g.11186623.6.646.14c875aevLqQuJ

智能推荐目前在公共云上部署。智能推荐底层的数据存储依赖于阿里云Maxcompute,以实例为细粒度建立通过项目空间、项目名称以及具体的分区对不同的用户数据进行隔离,客户需要通过阿里云的账号信息才能访问对应的数据。此外也支持客户对于重要的信息进行加密等措施。

9、推荐系统有没有外部调用接口?可以基于智能推荐做二次开发吗?
外部调用推荐系统可使用API进行结果的获取,对于控制台已支持的功能,包括创建打散规则、设置曝光过滤时间、设置混排规则、查询用户/物品数据/更新记录等均可使用提供的API接口调用。

目前暂时不支持模型内(包括召回和排序两个过程)的二次开发,如果具备一些特殊的业务规则,涉及过滤、强推逻辑建议针对请求的推荐结果筛选,但不建议基于推荐结果定义二次重排序,这将违背模型学习的真实结果。支持二次接口的开发在我们的规划中,但目前不支持,业务干预可通过加权、打散、混排策略设置等实现。

10、目前这套服务故障率是接近0吗?有做高可用吗?
开放搜索的服务可用性不低于99.95%,并有服务等级协议(Service Level Agreement,简称 “SLA”),规定了阿里云向客户提供的开放搜索(OpenSearch)的服务可用性等级指标及赔偿方案。具体可见文档:https://help.aliyun.com/document_detail/64789.html?spm=a2c4g.11186623.2.11.137448f0Tx5kMt

嘉宾分享

1、智能搜索技术在电商行业的最佳实践
分享嘉宾:阿里巴巴技术专家 项招贵
针对电商行业特点和面临的问题,分析在具体的技术实践中,针对多元化商品形态、多样的用户行为,如何做到搜索的智能化和效果评测等。

2.jpg

点击查看视频:智能搜索技术在电商行业的最佳实践

2、炼数成金:智能推荐大数据和AI实践
分享嘉宾:友盟+ 算法专家 杨玉莲
从电商行业推荐场景及挑战、基于大数据与AI的解决方案、新用户冷启动的解决方案、推荐技术在电商行业的发展方向四个方面分析智能推荐如何得以更懂用户的诉求与心智。

4.jpg

点击查看视频:炼数成金:智能推荐大数据和AI实践

以下为本次问题征选的获奖名单,礼品获取信息请关注短信通知。

8f312566d4f641198b38a539a1bce717.jpg


加入社群

点击订阅《阿里云搜索与推荐技术交流期刊》

扫码加群,了解更多资讯

b0de3dfcce544a55b01ce530ff9e0af3.jpg


相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
机器学习/深度学习 人工智能 算法
Meetup分享 | 现场互动答疑精选
Meetup分享 | 现场互动答疑精选
116 0
|
Cloud Native
【观看直播有奖】第三届云原生实战峰会,将于12月28日正式举办,欢迎您观看直播
第三届云原生实战峰会将于12月28日14:00举办,阿里云诚邀您观看直播!
336 1
【观看直播有奖】第三届云原生实战峰会,将于12月28日正式举办,欢迎您观看直播
|
消息中间件 Apache RocketMQ
优秀实践案例征集火热开启,快来投稿!
RocketMQ 社区「优秀实践案例征集」活动开始啦! 将RocketMQ实践过程中的最佳实践与踩坑经历,快来和大家分享 优秀案例作者更有机会参与RocketMQ Summit、获得社区纪念
120 0
优秀实践案例征集火热开启,快来投稿!
|
Serverless 云计算 开发者
【1024创造营】大咖“白话”serverless 训练营玩法公告
欢迎参加由阿里云开发者学堂发起的“大咖“白话”serverless训练营”。 本期训练营内容充实,无论你是新晋开发者,还是身经百战的大牛,都欢迎报名。
【1024创造营】大咖“白话”serverless 训练营玩法公告
|
新零售 存储 人工智能
开发者社区精选直播合集(四十)| 新零售展望与分析
马老师在阿里云栖大会上首提“新零售”的概念,指出线上线下加上现代物流合在一起,才能真正创造出新的零售,新零售也迅速成为业界关注的热点。
开发者社区精选直播合集(四十)|  新零售展望与分析
|
机器学习/深度学习 人工智能 算法
【云栖大会精彩回顾 】 | 一文了解搜索&推荐产品技术论坛
解读本期云栖大会搜索与推荐论坛的精彩内容,公布活动中奖名单~
5219 0
【云栖大会精彩回顾 】 | 一文了解搜索&推荐产品技术论坛
|
Cloud Native
今日午后直播预告:阿里云智能资深技术专家带来直播分享
5月19日(今日)14:00,阿里云智能资深技术专家张军为大家带来直播分享课。
今日午后直播预告:阿里云智能资深技术专家带来直播分享
|
安全
【阿里云新品发布·周刊】第26期:硬核!阿里云新品动态一手掌握
点击订阅新品发布会! 新产品、新版本、新技术、新功能、价格调整,评论在下方,下期更新!关注更多内容,了解更多 产品动态 阿里云基因行业产品解决方案 2019年8月28日14时,阿里云将召开基因行业解决方案技术解读发布会。
5059 0
|
关系型数据库 MySQL 网络安全
【阿里云新品发布·周刊】第25期:硬核!阿里云新品动态一手掌握
点击订阅新品发布会! 新产品、新版本、新技术、新功能、价格调整,评论在下方,下期更新!关注更多内容,了解更多 产品动态 新版本/新规格:云数据库 MySQL 版 - MySQL 推出 90核 CPU 720GB 内存 独占物理机规格。
2265 0
|
搜索推荐 Serverless
极测未来|淘宝"千人千面"内容下的智能评测技术与实践 | 8月8号云栖夜读
今天的首篇文章,讲述了:全面个性化、内容化的淘宝,构造了基于内容的丰富的导购场景,包括猜你喜欢、有好货、每日好店、必买清单、哇哦视频、微淘、买家秀、头条、洋葱盒子….。个性化,给消费者带来更精准的货品分发。内容化为消费者带来更多惊喜和好的体验,“好的商品,应该以更好的形式展现给消费者”。
6971 0
下一篇
无影云桌面