跨境电商多语言搜索最佳实践

本文涉及的产品
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
OpenSearch LLM智能问答版免费试用套餐,存储1GB首月+计算资源100CU
简介: 本文详细介绍智能开放搜索OpenSearch行业版在跨境电商领域的智能搜索应用。

典型业务场景

搜索是电商场景的核心流量入口,在跨境电商、国际电商场景下亦是如此。在跨境电商搜索场景中,涉及多语言、多场景复杂搜索条件,搜索处理尤为复杂。首先,需要识别不同搜索场景下的语言类型,确定目标商品池。然后,识别用户查询意图,针对不同语言类型进行关键词改写和商品召回。最后,预测召回商品的潜在点击率,根据用户特征千人千面的返回搜索结果。

上述跨境电商搜索业务能最大程度的满足多语言场景下的用户搜索需求,同时提升搜索引导的点击率、GMV,满足业务增长诉求。

搜索核心痛点

  • 需要多语言搜索算法模型,自研搜索缺少数据、经验积累。特别是在中文搜索时召回结果偏少,无结果率过高,用户体验不佳
  • 跨境场景下,多语言业务搜索配置困难,需要针对不同语言进行特殊处理
  • 无法实现千人千面的的个性化搜索
  • 搜索引导购买效果不佳,业务增长面临瓶颈

解决方案

开放搜索中文电商场景下的最佳实践已经过丰富的验证,可参考:电商行业搜索最佳实践

本文主要介绍在英文电商领域的解决方案

电商英文行业分词模型

英文自带空格切分,大部分场景下可以基于空格分词。但实际搜索中,用户输入关键词有时会漏掉空格,出现连写情况,不做正确分词会导致搜索无结果。

对于电商英文行业,OpenSearch汇集多个相关数据来源,利用亿万级数据训练了英文电商行业增强版分词模型,支持英文连写等场景下的小粒度切分,提升英文搜索召回率。

文本

通用版

行业增强版

partydress

partydress

party dress

harrypotter

harrypotter

harry potter

redchristmassocks

redchristmassocks

red christmas socks

redgirlwinterjacket

redgirlwinterjacket

red girl winter jacket

电商英文行业词权重模型

词权重在query改写和相关性算分阶段都起到重要作用,通用版的词权重模型没有覆盖英文商品描述,在产品词、品牌词、修饰词的权重上表现较差。

针对电商英文行业,OpenSearch基于英文电商行业数据、BERT模型训练深度词权重模型,精准预测每个词的权重,提高搜索召回率与相关性排序效果。

文本

通用版

行业增强版

party dress

party:高 dress:中

party:中 dress:高

yellow shoes

yellow:高 shoes:中

yellow:低 shoes:高

red girl winter jacket

red:高 girl:中 winter:中 jacket:中

red:低 girl:低 winter:低 jacket:高

电商英文行业向量召回模型

相比传统文本搜索需要通过分词、同义词、纠错、词权重改写等算法技术增强语义搜索效果,基于深度学习的语义向量召回模型具备更强大的表征能力,可以更好地处理用户查询词中的简写、别名、拼写错误等情况。

OpenSearch和阿里达摩院合作自研的向量召回技术,在业界知名榜单MS MARCO上夺冠。结合电商英文行业数据训练的向量召回模型在OpenSearch行业增强版对客户透出。

排名

队伍

eval

dev

1

Alibaba OpenSearch

0.450

0.463

2

Team 2

0.440

0.454

3

Team 3

0.436

0.452


query

yellow dresses

向量召回 TOP 1

Long-sleeve Yellow Dress

向量召回 TOP 2

Short-sleeve Orange Dress

向量召回 TOP 3

Orange/ Floral Print Cami Dress


query

blackk shoes

向量召回 TOP 1

Black Flats Mary Jane Shoes

向量召回 TOP 2

Lace Up Front Black Boots

向量召回 TOP 3

Black Chunky Sneakers

配置流程

开放搜索英文电商行业增强版支持基于模板一键式完成搜索全链路配置,更多使用方法请参考 接入流程

客户价值

某中英文跨境电商行业客户,通过约10个工作日完成POC接入后:

  1. 整体业务搜索加购率提升超过25%,UV-CTR提升超过8%,搜索引导GMV转化提升10%以上
  2. 长尾query无结果率降低80%
  3. 基于个性化排序模型,实现千人千面的搜索结果展示

填写问卷享开放搜索英文电商行业版首月半价试用:https://page.aliyun.com/form/act4137000/index.htm

如果你想与更多开发者们进行交流、了解最前沿的搜索与推荐技术,可以钉钉扫码加入社群

1652670057315-93b9b018-216c-465a-9b24-b38441215ae7.jpeg

相关实践学习
以电商场景为例搭建AI语义搜索应用
本实验旨在通过阿里云Elasticsearch结合阿里云搜索开发工作台AI模型服务,构建一个高效、精准的语义搜索系统,模拟电商场景,深入理解AI搜索技术原理并掌握其实现过程。
目录
相关文章
|
存储 监控 NoSQL
快速认识OTS
## 什么是OTS   OTS 是Open Table Service的简称,现在已更名为表格存储Table Store,官网对它的解释为:OTS是构建在阿里云飞天分布式系统之上的 NoSQL 数据库服务,提供海量结构化数据的存储和实时访问。OTS 以实例和表的形式组织数据,通过数据分片和负载均衡技术,达到规模的无缝扩展。OTS 向应用程序屏蔽底层硬件平台的故障和错误,能自动从各类错误中快速
46964 2
|
Java
Notepad++ 中如何将代码格式化
Notepad++ 中如何将代码格式化   在阅读别人的代码时偶尔会遇到格式很乱,阅读起来很费劲的情况,若手动改,很容易出错且很费时间,这时可以借助一些专业的编辑器来格式化代码,NotePad++是一个轻量级的代码编辑器,占用内存少,运行速度快,但是Notepad++本身是不带这个格式化功能的,但他支持NppAStyle插件 完成格式化。
4929 0
|
3月前
|
监控 搜索推荐 算法
用拼多多 API 实现拼多多店铺商品搜索权重提升
在拼多多等电商平台上,商品搜索权重直接影响曝光与销量。本文详解如何利用拼多多API自动化优化商品信息,提升搜索排名。内容涵盖权重计算公式、API基础操作及实战优化步骤,助力卖家高效提升店铺竞争力。
145 0
|
7月前
|
JSON 监控 API
1688 商品列表 API 深度拆解:从参数配置到数据获取
1688 是重要的批发采购平台,其商品列表 API 接口为开发者、商家和数据分析人员提供批量获取商品基础信息(如名称、价格、销量等)的能力。该接口支持市场调研、竞品分析等场景,助力商业决策与效率提升。接口基于 HTTPS 协议,采用 GET 或 POST 请求方式,需提供通用参数(如 app_key、timestamp 等)和业务参数(如 category_id、page_no 等)。响应数据以 JSON 格式返回,包含商品详情及分页信息。
212 13
|
9月前
|
存储 人工智能 并行计算
KTransformers:告别天价显卡!国产框架让单卡24G显存跑DeepSeek-R1 671B大模型:推理速度飙升28倍
KTransformers 是由清华大学和趋境科技联合推出的开源项目,能够优化大语言模型的推理性能,降低硬件门槛。支持在仅24GB显存的单张显卡上运行671B参数的满血版大模型。
2268 8
KTransformers:告别天价显卡!国产框架让单卡24G显存跑DeepSeek-R1 671B大模型:推理速度飙升28倍
|
11月前
|
机器学习/深度学习 Rust 算法
Python环境管理的新选择:UV和Pixi,高性能Python环境管理方案
近期Python生态系统在包管理领域发生了重要变化,Anaconda调整商业许可证政策,促使社区寻找更开放的解决方案。本文介绍两款新一代Python包管理工具:UV和Pixi。UV用Rust编写,提供高性能依赖解析和项目级环境管理;Pixi基于Conda生态系统,支持conda-forge和PyPI包管理。两者分别适用于高性能需求和深度学习项目,为开发者提供了更多选择。
2168 2
|
12月前
|
编解码 人工智能 自然语言处理
|
存储 JSON 监控
你好,iLogtail 2.0
你好,iLogtail 2.0!
1832 102
|
机器学习/深度学习 自然语言处理 运维
开放搜索电商行业模版驱动业务增长实践
阿里巴巴技术专家介绍如何通过开放搜索电商行业增强版,快速构建更高水准的搜索服务,带动业务指数级增长。
2574 0
开放搜索电商行业模版驱动业务增长实践
|
存储 SQL 数据挖掘
ClickHouse使用场景和案列分析
@[TOC](目录) # 一、ClickHouse 概述 ## 1. ClickHouse简介 ClickHouse 是一款开源的分布式列式数据库,旨在处理大规模数据集并实现快速查询。它最初由俄罗斯搜索引擎公司 Yandex 于 2016 年发布,并在短时间内获得了广泛的关注和应用。ClickHouse 具有高性能、可扩展性和可靠性等特点,成为处理海量数据的理想工具。 ## 2. ClickHouse 发展历程 ClickHouse 的发展历程可以追溯到 2016 年,当时 Yandex 公司意识到传统的关系型数据库在处理大规模数据时存在性能瓶颈,于是开始研发一款专为大数据处理而设计的列式数
4119 0