阿里云峰会 | AI搜题加速在线教育行业场景创新

本文涉及的产品
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
推荐全链路深度定制开发平台,高级版 1个月
OpenSearch LLM智能问答版免费试用套餐,存储1GB首月+计算资源100CU
简介: 过去的2020年的让所有人难忘的一年,受新冠疫情的影响,各行各业都在挑战中变化,在教育方面也催生了新的商业格局。在线教育平台发展迅猛,阿里云也积极相应,为在线教育的众多客户提供了高效稳定的技术保障。本文介绍了阿里云开放搜索为在线教育掠夺流量的重要工具-拍照搜索的技术原理。

分享人:徐光伟(昆卡)   阿里巴巴达摩院算法专家

了解更多解决方案详情:https://www.aliyun.com/page-source/data-intelligence/activity/edusearch

搜索是在线教育企业流量获取的利器

   截至2020年12月份教育行业月活TOP10的统计,其中具备搜题能力的软件多达5个,拍照搜题作为产品能力,可以帮助客户获取大量用户以及流量,从而为其他产品提供变现能力,正是由于这样定位,拍照搜题整体准确性和搜索效率都成为至关重要的一点,所以开放搜索对此做了很多订制优化。

教育搜题业务特点


对于教育搜题业务场景归纳了三大特点:

第一点海量题库,教育题库都是属于千万级别甚至到亿级别,而且不断的持续增长;同时搜题业务存在很明显的高峰现象,例如晚上七八点,节假日最后一天,这时搜题会存在非常高的QPS的波峰;搜索延迟会严重影响用户的体验。

第二点场景丰富,拍照搜题涵盖的场景越来越丰富,包括不同的年龄段,例如低年级搜题主要围绕拍照看图识字或连线题,需要更多的图片信息的题目;还包括不同的学科,目前支持的学科多达十多种,因此丰富的场景就会对搜索效果带来更大的挑战。

第三点算法需求,拍照搜题产品形态一般只会展现TOP3或者TOP5的结果,正是因为这样设定,准确性对于拍照搜题来说至关重要,同时拍照搜题还会涉及到多模态和多语言处理能力,解决图文搜索和多语言处理的需求。

开放搜索教育搜题方案架构

阿里云开放搜索的拍照搜题解决方案,当用户通过拍照经过OCR识别之后的文本,经过开放搜索引擎处理后会返回TOP3-5的结果给用户得到展示,并且针对企业题库数据严格保证数据的安全和隐私。

教育搜题算法能力

查询分析算法优化完整的处理流程

教育行业分词和学科类目预测

分词在拍照搜题场景下存在两大难点,第一点英文题目OCR识别之后空格缺失,左边第一个图可以看到,即便针对很长没有空格的英文文本,模型也是可以非常准确的做正确的切分。第二个难点是数学题目公式表示之后的切分,左边第二个图可以看到数学符号部分都做出正确的切分。

类目预测在拍照搜题场景下对应的就是学科的预测和题型的预测,我们结合图片以及OCR识别之后的文本信息做多模态预测,从而提高搜题准确率。

多路召回排序技术

由于拍照搜题业务场景的特殊性,开放搜索还引入了多路召回排序技术。

为什么要做多路召回呢?

教育拍照搜题相比传统的网页或者电商的搜索存在明显的差异,第一点是搜索的Query特别长,第二点是搜索的Query由拍照OCR识别之后得到的文本,其中关键TERM识别错误的话,就会严重影响召回排序。

传统的纯文本查询方案包括两种,第一种是OR逻辑查询,第二种AND逻辑查询,AND逻辑查询上基于我们刚才说到的针对教育领域优化定制的Query模块分析之后大幅提高效果,现在可以做到准确性接近OR逻辑。

如何兼顾搜索计算开销以及搜索的准确率呢?

引入了文本的向量召回,对文本向量召回技术优化了三点,

第一点是其中的BERT模型我们采用达摩院自研的StructBERT,并针对于教育行业做了定制,同时对BERT模型做压缩加速。

第二点是向量检索引擎采用达摩院自研的Proxma引擎,准确性和速度都超越开源系统。

第三点训练数据可以基于客户的搜索日志不断积累,效果持续提升。

从右边的图可以看到,最终我们在基于两侧的BERT模型就可以达到非常好的效果,准确性超过OR逻辑3%—5%,整体召回DOC数量减少40倍,Latecy降低10倍以上。

搜题效果展示

举例两个具体搜题的case,左边这个case可以看到其中因为问题中的文字描述和题库中文字描述不一致,传统搜索引擎返回的结果相关性极差,经过我们引入语意向量召回之后右边TOP3结果完全符合题意。第二个case因为这个题目中包含图片的信息,传统的搜索引擎无法做到准确的召回,基于我们多路召回引入图象信息之后TOP1返回完全一致的题目。

开放搜索解决方案优势

案例一:某K12的教育用户,用户数达到千万级别,题库量在八千万左右而且在持续增加,客户接入开放搜索之后返回搜题准确率提升45%,延迟降到50%毫秒。


案例二:某高职教育客户,产品DAU三百万,月活一千万,客户接入之后反馈对比他们原先自建的系统,在高峰时候耗时大于两秒,现在开放搜索可以稳定在50毫秒,同比下降40倍。TOP5题目搜索准确率提升2.4%搜索结果从原来40%降到不到1%,业务高峰期可以实现秒级平滑扩容。


获得专家指导:

https://survey.aliyun.com/apps/zhiliao/6R4u6vilI


如果您对搜索与推荐相关技术感兴趣,欢迎加入钉钉群内交流

image.png



目录
相关文章
|
2天前
|
存储 人工智能 Serverless
阿里云《AI 剧本生成与动画创作》技术解决方案测评
本问是对《AI 剧本生成与动画创作》的用心体验。结论不是特别理想,在实际使用中仍存在一些问题。
50 22
|
4天前
|
人工智能 前端开发 Serverless
阿里云《AI 剧本生成与动画创作》解决方案技术评测
随着人工智能技术的发展,越来越多的工具和服务被应用于内容创作领域。阿里云推出的《AI 剧本生成与动画创作》解决方案,利用函数计算 FC 构建 Web 服务,结合百炼模型服务和 ComfyUI 工具,实现了从故事剧本撰写、插图设计、声音合成和字幕添加到视频合成的一站式自动化流程。本文将对该方案进行全面的技术评测,包括实现原理及架构介绍、部署文档指引、具体耗时分析以及实际使用体验。
51 16
|
4天前
|
机器学习/深度学习 人工智能 弹性计算
阿里云《AI 剧本生成与动画创作》解决方案深度评测
阿里云《AI 剧本生成与动画创作》解决方案深度评测
29 7
|
5天前
|
人工智能 搜索推荐 安全
正式上线!阿里云短信模板 AI 助手,10 秒生成/改写个性化、合规短信内容
阿里云短信服务 - 短信模板AI 助手已全面开放,欢迎体验!
|
11天前
|
人工智能 IDE 程序员
与1.0 相比,通义灵码 2.0 AI 程序员有哪些功能、亮点、优势、场景?
通义灵码2.0相比1.0新增了工程级编码任务、单元测试生成和图片多模态问答等功能,支持多文件代码修改、批量生成单元测试及根据图片内容生成代码建议。亮点包括支持主流IDE、垂直智能体覆盖更多场景、企业级检索增强和灵活对话交互体验。技术优势涵盖多模态上下文感知、快速推理、企业数据个性化及一流代码生成效果。典型应用场景有新功能开发、跨语言编程、单元测试自动生成和错误排查修复。
218 7
|
30天前
|
人工智能 自然语言处理 测试技术
阿里云通义实验室自然语言处理方向负责人黄非:通义灵码2.0,迈入 Agentic AI
在通义灵码 2.0 发布会上,阿里云通义实验室自然语言处理方向负责人黄非分享了代码大模型的演进。过去一年来,随着大模型技术的发展,特别是智能体技术的深入应用,通义灵码也在智能体的基础上研发了针对于整个软件研发流程的不同任务的智能体,这里既包括单智能体,也包括多智能体合并框架,在这样的基础上我们研发了通义灵码2.0。
159 21
|
21天前
|
机器学习/深度学习 人工智能 弹性计算
阿里云AI服务器价格表_GPU服务器租赁费用_AI人工智能高性能计算推理
阿里云AI服务器提供多种配置,包括CPU+GPU、FPGA等,适用于人工智能、机器学习和深度学习等计算密集型任务。本文整理了阿里云GPU服务器的优惠价格,涵盖NVIDIA A10、V100、T4等型号,提供1个月、1年和1小时的收费明细。具体规格如A10卡GN7i、V100-16G卡GN6v等,适用于不同业务场景,详情见官方页面。
114 11
|
23天前
|
SQL 人工智能 关系型数据库
【PG锦囊】阿里云 RDS PostgreSQL 版插件—AI 插件(rds_ai)
本文介绍了AI 插件(rds_ai)的核心优势、适用场景等,帮助您更好地了解 rds_ai 插件。想了解更多 RDS 插件信息和讨论交流,欢迎加入 RDS PG 插件用户专项服务群(103525002795)
|
28天前
|
人工智能 算法 前端开发
OmAgent:轻松构建在终端设备上运行的 AI 应用,赋能手机、穿戴设备、摄像头等多种设备
OmAgent 是 Om AI 与浙江大学联合开源的多模态语言代理框架,支持多设备连接、高效模型集成,助力开发者快速构建复杂的多模态代理应用。
189 72
OmAgent:轻松构建在终端设备上运行的 AI 应用,赋能手机、穿戴设备、摄像头等多种设备
|
14天前
|
人工智能 自然语言处理 搜索推荐
【上篇】-分两篇步骤介绍-如何用topview生成和自定义数字人-关于AI的使用和应用-如何生成数字人-优雅草卓伊凡-如何生成AI数字人
【上篇】-分两篇步骤介绍-如何用topview生成和自定义数字人-关于AI的使用和应用-如何生成数字人-优雅草卓伊凡-如何生成AI数字人
88 24
【上篇】-分两篇步骤介绍-如何用topview生成和自定义数字人-关于AI的使用和应用-如何生成数字人-优雅草卓伊凡-如何生成AI数字人