在线教育搜题场景最佳实践

简介: 在线教育行业中,题库、词典、拍照搜题作为产品掠取流量最重要的工具,抓住了家长、学生辅导和解题上需求,为其他的业务变现提供源源不断的流量。在市场竞争激烈,产品同质化严重的的情况下,面对不断激增的题库和高并发的用户搜索,如何保障在线教育行业搜索的性能和算法准确性尤为重要,这将直接影响品牌的口碑和培养高粘性忠实用户。

教育行业搜索业务背景

   近几年在线教育行业飞速发展,根据2020中国移动互联网教育学习APP行业月活用户规模TOP10的统计,月活前十中针对K12教育的APP有6个,具备搜题场景的APP有5个;

1612250218127-aeac2a4f-3a35-49d7-a20c-1b61ff3c11c0.png

(数据来源:QuestMobile<2020中国移动互联网年度大报告>)


     在线教育行业中,题库、词典、拍照搜题作为产品掠取流量最重要的工具,抓住了家长、学生辅导和解题上需求,为其他的业务变现提供源源不断的流量。在市场竞争激烈,产品同质化严重的的情况下,面对不断激增的题库和高并发的用户搜索,如何保障在线教育行业搜索的性能和算法准确性尤为重要,这将直接影响品牌的口碑和培养高粘性忠实用户。

教育搜题业务特点

  1. 海量题库且持续增长,数据库压力大
  2. 存在高峰时段集中,用户搜索并发量大搜索延迟直接影响用户体验;
  3. 覆盖不同阶段学习、用户场景越来越丰富
  4. 学科分类众多,数据越来越复杂,搜索存在跨学科错误;
  5. 需要强大的算法算力支撑,提升搜题准确性
  6. 依赖多模态搜索能力来解决图文搜索需求
  7. 依赖多语言处理能力来处理英语等其他语言搜题需求


阿里云开放搜索教育行业最佳实践

image.png

OpenSearch

文档召回

干预功能

题库

引擎索引

查询分析理解

批量配置

输入交互

题目文本

API

词权重

文本索引

教育行业分词器

同义词

搜索框

题目图片

干预词典

类目预渊

拼写纠错

OCR识别

图片向量素引

同义词

词权重

Query改写

公式索引

学科

拼写纠错

难度

召回结果

排序定制

质量分

文本召回(粗排)

文本相关性(精排)

向量召回(祖排)

热度

类目相关性(精排)

图片相关性(精排)

语义相关性(精排)

业务运营报表


教育行业查询意图理解能力

1.query处理流程

image.png

Term分析

Query改写

类目预测

OCR结果

查询Query

query处理

分词/去停用词

同义词改写

学科预测

类目改写

纠错/关键词识别

题型预测

意图改写

命名实体识别

2.查询语义理解

分词是影响搜索效果的最基础的模块。开放搜索集成了教育搜题行业专属的教育分词器,同时在此基础之上用户还可上传自己的分词词条定制个性化的分词器。

  • 示例

Query

下面三角形的面积是多少平方厘采?

拼写纠错

下面三角形的面积是多少平方厘米?

学科类目预测

数学

分词

下面 三角形 的 面积 是 多少 平方 厘米 ?

词权重

            1     7        1     7    1    4      7      7    1

同义词改写

平方 厘米 -> (cm ^ 2)


3.类目预测

什么是类目预测?

 简单来说,用户输入一个query,查询得到一批物品,通过计算每一个物品所属的类目与query之间的相关度,只要物品的排序公式中引用了这个相关度,那么对于这个物品来说,它所属的类目与query的相关度越高,它的排序公式的计算结果就获得了越高的排序得分,从而这个物品就会排在越前面。


类目预测在教育行业的应用:

  • 结合输⼊的图⽚信息和OCR识别之后的结果预测输⼊题⽬的学科类别、题目类型;
  • 预测各⽂本⽚段的字段类型(题干描述、选项等等);


image.png

输入图片

4.用8个/平方厘米的正方形,拼成下面的图

语文

形.它们的面积各是多少9它们的周长呢?

数学

英文

学科分类模型

OCR

题型分类模型

选择题

填空题

1.文本信息识别结果

2.图片信息识别结果

3.要素位置信息


4.词权重分析

功能介绍:该功能主要分析了查询中每一个词在文本中的重要程度,并将其量化成权重,权重较低的词可能不会参与召回。这样可以避免当用户输入的查询词中包含一些权重低的词时,仍然按用户输入的查询词限制召回,导致命中结果过少。

功能用途: Query丢词、改写、文本相关性分析;


(1)基于用户行为生成训练数据

image.png

Term重要度偏序

归一化

VPCG算法

训练数据

QD点击图

(2)词权重模型训练

  • 序列标注模型 ;
  • 预测标签(7,4,1), 分值越⾼表⽰term的重要性越⼤,召回结果更准确;


示例:

     query:         35 的 因数 有  (   )  ,   100  以内  24  的 倍数 有 (  )  

对应权重分:4    1    7    1   1  1  1    1     1      4    1    7     1  1  1  

此题目中“因数”和“倍数”的权重分最高7分,参与召回的权重也就最高,其次是“35”和“24”为4分,其他权重分为1分的,不参与召回;


5.query改写

为了满足业务的灵活需求,开放搜索支持批量干预:词典、拼写纠错,同义词,词权重等。


示例

1)OCR识别可能会把一些非题目要素识别进来干扰query分析的结果,这时候可以使用词权重干预的方式保证非题目要素字段被打标成低权重,保证召回和排序效果

2)用户可以自定义同义词来扩召回,例如"立方米" -> "吨"


排序定制

系统开放了两阶段排序过程:基础排序和业务排序,即粗排和精排;基础排序即是海选,从检索结果中快速找到质量高的文档,取出TOP N个结果再按照精排进行精细算分,最终返回最优的结果给用户。为了实现更细粒度的排序效果,结合排序表达式(Ranking Formula)可以为应用自定义搜索结果排序方式。

image.png

文本相关性分数

粗排排序机制

文本相关性分(bm25)

QueryTermMatchCount

质量分

TextRelevance

向量相似度分

FieldMatchRatio

FieldTermProximity

KeyWordsMatched

QueiyMnslideWindow

LongestCommonSubsequence

Bm25

精排排序机制

向量相似度

文本相关性

类目相关性

Cava定制开发

质量分

业务逻辑

属性相关性

个性化分

语义相关性

图片相关性

客户效果对比

      某在线教育平台,主打K12教育,用户数千万级别,题库量8千万左右且持续增加,由自建题库和第三方题库两部分组成,之前通过OCR+自建ES搜索服务实现拍照搜索功能,面临的主要问题是搜索准确率待优化提升,降低搜索延迟等问题。

客户反馈

  1. 搜题准确率绝对值提升5%
  2. 延时从100ms-300ms降到稳定50ms
  3. 离线数据同步大于4000TPS;

搜题效果前后对比

  • 搜题Query:"张慧研所指与小磁大概相近的是乐府之音"


旧版自建召回结果

开放搜索召回结果

top1

某歌舞团独唱演员张慧月工资5800元,2006年6月,张慧参加了该团在上海的3场演出,得到3800元报酬...

张惠言所指与“小词”大概相近的是乐府之音。

top2

张慧研对音乐的喜好源于...

张惠言所指与“小词”大概相近的是乐府之音。()

top3

下列文献中,属于张慧老师在中国音乐期刊上发表文章的引证文献是

下列选项中属于张惠言所指与“小词”大概相近的是()。

  • 搜题Query: “如图是由一些相同的小正方体搭成的几何体从三个不同方向看得到的形状图,则搭成这样的几何体需要__个小正方体. 0 A 3 从上面看看从正面看”

image.png



旧版自建召回结果

开放搜索召回结果

top1

image.png

image.png

三个不同方向看到的形状图,若在所搭几何体的基础上(不改变原

几何体中小正方体的位置),继续添加相同的小正方体,搭成一个大

个小正方体,

正方体,至少还需要

从上面看

从正面看

从左面看

top2

image.png

image.png

top3

image.png

image.png


以上就是开放搜索[在线教育搜题场景的最佳实践],如果您对搜索与推荐相关技术感兴趣,欢迎加入钉钉群内交流

11.PNG


【开放搜索】新用户活动:阿里云实名认证用户享1个月免费试用

https://free.aliyun.com/product/opensearch-free-trial

目录
相关文章
|
1月前
|
人工智能 安全 API
OpenClaw安全搭建必看!阿里云/本地部署+百炼API配置+skill-vetter安全审计实战/恶意Skill防御教程
在AI智能体全面普及的2026年,OpenClaw(Clawdbot)凭借强大的执行能力成为最受欢迎的开源智能体框架,它能调用系统命令、读写文件、控制浏览器、联网访问、对接各类平台,真正实现“自然语言驱动自动化”。但能力越大风险越高,近年来大量用户遭遇文件被删除、密钥泄露、系统崩溃、数据外传等安全事故,**根源并非OpenClaw框架本身,而是安装了不受控的恶意Skill,并且开放了过高权限**。
1138 3
|
11月前
|
监控 供应链 数据挖掘
淘宝商品详情API接口解析与 Python 实战指南
淘宝商品详情API接口是淘宝开放平台提供的编程工具,支持开发者获取商品详细信息,包括基础属性、价格、库存、销售策略及卖家信息等。适用于电商数据分析、竞品分析与价格策略优化等场景。接口功能涵盖商品基础信息、详情描述、图片视频资源、SKU属性及评价统计的查询。通过构造请求URL和签名,可便捷调用数据。典型应用场景包括电商比价工具、商品数据分析平台、供应链管理及营销活动监控等,助力高效运营与决策。
475 26
|
7月前
|
人工智能 负载均衡 API
Vercel 发布 AI Gateway 神器!可一键访问数百个模型,助力零门槛开发 AI 应用
大家好,我是Immerse,独立开发者、AGI实践者。分享编程、AI干货、开源项目与个人思考。关注公众号“沉浸式趣谈”,获取独家内容。Vercel新推出的AI Gateway,统一多模型API,支持自动切换、负载均衡与零加价调用,让AI开发更高效稳定。一行代码切换模型,告别接口烦恼!
1000 1
Vercel 发布 AI Gateway 神器!可一键访问数百个模型,助力零门槛开发 AI 应用
|
机器学习/深度学习 算法 计算机视觉
YOLOv11改进策略【SPPF】| SimSPPF,简化设计,提高计算效率
YOLOv11改进策略【SPPF】| SimSPPF,简化设计,提高计算效率
719 13
YOLOv11改进策略【SPPF】| SimSPPF,简化设计,提高计算效率
|
Web App开发 机器学习/深度学习 人工智能
Weebo:支持多语言和实时语音交流的开源 AI 聊天机器人,回复具备语调、情感的语音
Weebo 是一款基于 Whisper Small、Llama 3.2 和 Kokoro-82M 技术的 AI 语音聊天机器人,支持实时语音交互和多语言对话,适用于个人助理、娱乐互动和教育辅导等多种场景。
1398 17
Weebo:支持多语言和实时语音交流的开源 AI 聊天机器人,回复具备语调、情感的语音
|
机器学习/深度学习 自然语言处理 搜索推荐
探索文本向量化的新高峰:合合信息acge_text_embedding 模型原创
文本向量化方法包括词袋模型、TF-IDF、词嵌入和预训练模型(如BERT、GPT)。词嵌入如Word2Vec、GloVe和FastText捕捉单词语义,预训练模型则保留上下文信息。C-MTEB是中文文本嵌入评估平台,测试模型在检索、相似性、分类等任务的性能。合合信息的acge_text_embedding模型在C-MTEB中表现优秀,适用于情感分析、文本生成等任务,具有高分类聚类准确性、资源效率和场景适应性。技术突破涉及数据集优化、模型训练策略和持续学习,提供Demo展示如何使用acge模型计算句子相似度。acge_text_embedding是提升文本处理效率和智能化的有力工具。
1951 2
探索文本向量化的新高峰:合合信息acge_text_embedding 模型原创
|
JavaScript 前端开发 测试技术
Vue工具和生态系统: Vue中有哪些常用的第三方库或插件?
Vue工具和生态系统: Vue中有哪些常用的第三方库或插件?
828 1
|
异构计算
FPGA智能传感系统(二)基于FPGA的交通灯设计(一)
FPGA智能传感系统(二)基于FPGA的交通灯设计(一)
575 0
FPGA智能传感系统(二)基于FPGA的交通灯设计(一)
|
分布式计算 安全 算法
Java基础:UUID
作为开发人员大家对UUID应该都比较熟悉了,Java中也提供了相关的类和生成方法,供业务中使用。这里准备对UUID生成的过程做一次深入了解。
672 0
|
计算机视觉 索引
NR PRACH(一)Preamble的确定
因为具有良好的自相关性和互相关性,恒幅低峰均比等特性,使用Zaddof-Chu序列作为PRACH 信道的上行同步序列
下一篇
开通oss服务