内容社区行业搜索最佳实践

本文涉及的产品
推荐全链路深度定制开发平台,高级版 1个月
简介: 社区内容通常包括UGC和PGC。由于关键词和内容多样性丰富、用词规范程度参差不齐,搜索引擎需要对关键词和内容进行智能语义分析,识别出用户真正的查询意图,找到最全面最相关的结果满足用户需求。本文将详细介绍如何通过“开放搜索(OpenSearch)内容增强版”在社区论坛场景的应用,提升用户搜索体验,带来更多的业务转化

社区的核心是用户,用户进入社区的主要目的是为了消费内容。内容可以是广义的图文、音频、视频,也可以是通过社区找到解决问题的方法。优质的内容能提升用户的活跃度,为平台带来流量与时长,实现用户增长和留存,获得更多业务机会和收益。

"搜索"作为社区直接获取内容的最有效途径,每个社区都在不断解决下面的搜索效果问题:

  • 如何准确理解用户的搜索意图,返回最匹配的结果?
  • 如何通过内容传播的差异化,个性化来提升用户的搜索体验,增强社区归属感和忠诚度?
  • 如何在社区里不同领域,不同垂类,不同频道间的内容召回中实现交互和连接?
  • 如何实现非商业化内容与商业化内容更好的融合与发展?

本文将带着以上几个思考,为大家解析内容社区行业搜索特点和挑战,以及介绍阿里云智能开放搜索-内容社区行业增强版的解决方案和应用实践。

内容行业搜索业务需求

» 更多的曝光机会——无结果率低;
» 更好的搜索质量——搜索相关性高,更高质量的排序;
» 更丰富的业务特征——结合业务特性调整搜索结果;
» 更全面的配套功能——智能纠错、热搜、底纹、下拉提示等配套能力;
» 更低的拥有成本——相较自建搜索引擎更低的开发、资源、运维成本;
» 更便捷的开发使用——上线周期短,降低搜索引擎开发、效果调优难度;

» 用户搜索意图指向性强——主搜聚集多个频道内容,搜索结果相关性要求更加精准;

以某论坛社区为例,产品线覆盖多个平台,包含网页、APP、小程序等形式,同时业务上区分多个频道。随着业务的发展,首页综合搜索(后简称“主搜”)的流量越来越大,各种付费、引流业务接入,对搜索流量的运营变得更加重要,对主搜的业务诉求越来越多,需要聚合多个频道的内容,同时搜索结果相关性要求更加精准,在考虑文本相关性的前提下,要加入更多的商业因素考虑。
成熟的搜索引擎涉及离线模块、在线模块、查询理解服务、算法平台等系统,所需大量开发、算法调优以及持续的复杂运维工作,由于人力有限,自建搜索系统很难满足业务需求。


常见搜索业务场景

文章搜索

  • 博文、问答、心得分享等内容搜索
  • 精品内容、热帖发现
  • 付费资源引流
  • 标签分类过滤、筛选

(配图来自阿里云开发者社区)

话题搜索

  • 热门活动、话题互动
  • PGC、UGC
  • 热搜、底纹、下拉提示等搜索引导
  • 个性化、时效性

(配图来自阿里云开发者社区)

开放搜索内容社区增强版

方案架构

功能介绍

内容行业增强版基于阿里巴巴最新算法功能,贴合不同垂类内容搜索场景的痛点和需求,提供了内容行业专属的智能语义理解能力、向量召回、排序算法,为内容行业的搜索性能和效果准确性提供双重保障,并有效的解决了超大词库数据导致的搜索延迟高、资源消耗大、搜索无结果率高等行业重难点问题。针对内容行业,开放搜索还提供了向量模型,以实现向量召回及多路搜索,提高查询准确率,并提供多模态搜索解决方案

通用版VS内容行业增强版

  1. 功能差异

功能列表

通用版

内容行业增强版

一站式配置

创建应用后,需要手动创建并配置查询分析、排序策略和下拉提示模型。

结合内容行业常见搜索场景,选择所需能力及功能,同时提供应用结构模板和索引结构模板,实现一键式配置,降低新用户使用门槛。

查询分析

针对通用行业提供同义词拓展、停用词省略、拼写纠错、词权重分析、类目预测等能力。

针对内容行业,提供增强版分析器与查询分析功能。结合内容搜索场景及行业难题,更精准的构建索引并识别用户查询意图,与通用版相比效果更优。

策略排序

创建应用后,需要结合业务场景手动配置并调试相应的排序策略。

在应用结构模板和索引结构模板基础上,提供内容行业常用排序表达式,无需额外配置即可满足大部分内容行业排序效果需求。

功能迭代

定期更新分析器、查询分析等系统默认词典。

根据内容行业的名词、产品等变化,不断迭代更新,优化原有分词、查询分析能力,提供更高时效性的服务保障。

  1. 查询分析效果对比

行业增强版较通用版相比在查询分析功能上做出了更深入的优化,不仅在通用版的基础上更新了常见bad case,而且针对内容行业集各家之所长,丰富已有词库。

  • 分词:(以空格分词)

query

通用版

行业增强版

为了解压缩

为 了解 压缩

为了 解 压缩

实参与形参

实 参与 形参

实参 与 形参

结构体重载

结构 体重 载

结构体重载

googlechromeframe

googlechromeframe

google chrome frame

  • 拼写纠错

query

通用版

行业增强版

淘宝只能视觉

淘宝只能视觉

淘宝智能视觉

mybatics代码生成

mybatics代码生成

mybatis代码生成

计算机网

计算机网路

计算机网络

小程序

微型小程序

微信小程序

深度学西

深度学西

深度学习

内容行业向量召回

针对内容行业的垂类行业数据分布提供高质量的向量召回模型,保证长尾query,包含错别字query,依赖同义词改写召回query的召回效果

  • 向量召回

query

美国gmted2010的shuju下载

向量召回top1

gmt43相关代码、资料下载地址

向量召回top2

gmt0054-2010.pdf

向量召回top3

gmted2010美国download地址

query

3D游戏画面处理

向量召回top1

3d游戏动画处理基础

向量召回top2

3d游戏动画的基础

向量召回top3

动画游戏处理

query

禁用n卡

向量召回top1

网卡的禁止和启动

向量召回top2

禁用网卡

向量召回top3

禁用及启用网卡

CTR预估模型-个性化搜索效果

  1. 基于Seq行为建模,实现个性化搜索

例如:用户连续搜索:“面试”,“Java”两个词和用户只搜索“Java”的结果是有差异的,实现个性化召回,针对性满足不同用户的搜索需求,提示用户搜索体验。

  1. 深度排序模型DeepRanking

模型参数规模可以达到1000亿级别,保障更优搜索效果,且模型训练、使用成本低,远低于自研人力+机器+研发支持所用成本。

  1. 深度召回模型集合阿里云达摩院的NLP能力,提升搜索效果,降低无结果率

针对用户和数据特点,结合阿里巴巴长期技术积累,深度定制模型结构,做到Make for you的特有深度模型结构。

增强版接入流程

轻松接入,快速上手,一键式接入行业模板,可根据自身业务自定义选择功能,并满足非技术人员业务干预调优与数字化运营需求; 点击体验交互式demo

表结构设计

详情可参考应用结构--->创建多表join

数据接入

开放搜索支持用户通过数据源将数据接入搜索,也支持无数据源,通过API/SDK/控制台上传文件的方式导入数据详情如下:

  1. RDS数据源配置
  2. MaxCompute(原ODPS)数据源配置
  3. POLARDB数据源配置
  4. API/SDK数据导入

内容社区行业模板配置

功能选择,垂类选择“IT”行业为例,模板功能可自行勾选(默认全选)

其中模板功能包括:查询分析(IT词权重、IT同义词包、文本向量化等)、排序策略(多路搜索、文本相关性、向量相关性)、下拉提示。

搜索测试

  1. 如需使用“IT向量索引”搜索,需要先配置查询分析-文本向量化功能,并添加对应的IT向量索引
  2. 在搜索测试中进行测试:

效果定制服务

如果有深度召回、排序效果调优、个性化搜索需求,开放搜索团队专家支持效果定制服务,可填写咨询问卷:https://page.aliyun.com/form/act1638084369/index.htm

案例实践

某技术社区作为中文IT内容社区,致力于为中国软件开发者提供知识传播、在线学习、职业发展等全生命周期服务,旗下包括多款产品。

自开始接触阿里云开放搜索产品,在一年的时间里陆续接入PC端、移动端的多个平台,覆盖首页搜索、博客、下载、问答等细分业务的频道搜索。通过开放搜索,为旗下产品的用户提供高质量的搜索服务,并通过搜索能力的优化带来更多的业务转化,提升整体业务收入。

  • 对比基于开源自建的服务CTR提升超过80%
  • 后续算法专家通过深度定制模型不断帮客户调优,每曝光用户带来点击次数提升16.7%,Item-CTR提升11.8%,效果还在持续提升中;


>>点击体验开放搜索内容社区行业增强版DEMO

填写问卷获得专家指导:https://page.aliyun.com/form/act1638084369/index.htm

如果你想与更多开发者们进行交流、了解最前沿的搜索与推荐技术,可以钉钉扫码加入社群

lQDPDhttpX8BRlzNArrNAuawwx8QLG6G5sQChFFmU4DnAA_742_698.jpg

目录
相关文章
|
人工智能 自然语言处理 搜索推荐
阿里云开放搜索重磅发布!云时代搜索业务的价值重构
【云栖大会】阿里云开放搜索重磅发布~
6819 0
阿里云开放搜索重磅发布!云时代搜索业务的价值重构
|
4月前
|
存储 搜索推荐 Java
开发者热议GitHub代码搜索政策,最佳搜索解决方案探索
近日,名为koepnick 的开发者因在一台老式电脑上使用GitHub 搜索自己的存储库代码,却没有手机等设备协助验证,导致无法登录GitHub 账户,发文怒斥GitHub:如若没有登录,就无法使用搜索代码服务,与其这样不如弃用。 其实,早在今年6月,GitHub 官方便发布了一封《代码搜索现在需要登录》的公告内容,官宣除了在 GitHub.com 上全局搜索代码已经需要用户登录的政策之后,自 6 月 7 日起,这一政策将其扩展为包括存储库范围的搜索。即要访问 GitHub 的新代码搜索和代码导航的全部功能,需要创建账户或登录 GitHub.com。
|
11月前
|
存储 移动开发 自然语言处理
|
11月前
|
容灾 算法 数据可视化
闲鱼技术2022年度白皮书-服务端主题-电商搜索里都有啥?详解闲鱼搜索系统(中)
闲鱼技术2022年度白皮书-服务端主题-电商搜索里都有啥?详解闲鱼搜索系统
159 0
|
11月前
|
搜索推荐 UED 索引
闲鱼技术2022年度白皮书-服务端主题-电商搜索里都有啥?详解闲鱼搜索系统(下)
闲鱼技术2022年度白皮书-服务端主题-电商搜索里都有啥?详解闲鱼搜索系统
167 0
|
机器学习/深度学习 人工智能 算法
多媒体搜索现状(下) | 学习笔记
快速学习多媒体搜索现状(下),介绍了多媒体搜索现状(下)系统机制, 以及在实际应用过程中如何使用。
134 0
多媒体搜索现状(下) | 学习笔记
|
机器学习/深度学习 算法 搜索推荐
多媒体搜索现状(上) | 学习笔记
快速学习多媒体搜索现状(上),介绍了多媒体搜索现状(上)系统机制, 以及在实际应用过程中如何使用。
85 0
多媒体搜索现状(上) | 学习笔记
《开放搜索在智能化行业搜索和业务增长领域的应用实践》电子版地址
《开放搜索在智能化行业搜索和业务增长领域的应用实践》PDF
124 0
《开放搜索在智能化行业搜索和业务增长领域的应用实践》电子版地址
|
SQL 机器学习/深度学习 自然语言处理
行业搜索最佳实践(一)|学习笔记
快速学习行业搜索最佳实践(一)
161 1
行业搜索最佳实践(一)|学习笔记
|
自然语言处理 搜索推荐 算法
行业搜索最佳实践(二)|学习笔记
快速学习行业搜索最佳实践(二)
81 0