开发者学堂课程【第八届大学生创新创业大赛阿里命题智能弓|擎搜索命题解析:智能引擎搜索-基于问天引擎的智能搜索推荐算法开发】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/1014/detail/15075
智能引擎搜索-基于问天引擎的智能搜索推荐算法开发
1、命题背景
分别介绍整体的行业背景和问题引擎产品。
(1)行业背景
受疫情催化影响,全球资讯越发依赖线上渠道进行传播,人们通过互联网接决定用户文娱站点获取娱乐信息的诉求相比往年更加强烈。在各大线上文娱站点的入口,用户的搜索行为背后代表着观看内容的倾向,搜索质量的高低将直留存的时间,因此在 AI 时代,如何通过构建智能搜索能力,提升线上用户的平台粘性,成为了众多文娱厂商的重要研究课题。
为了解决这些问题,推出了问天引擎产品。
(2)引擎产品介绍
"问天引擎"是阿里巴巴自主研发的大规模分布式搜索引整,支持了淘宝,天猫,菜鸟,优酷等在内的整个阿里巴巴集团搜索业务,也是阿里云开放搜索的基石。问天引擎经过多年的发展,在满足业务高可用、高时效性、低成本等需求的同时,沉淀出自动化运维系统。云上问天引擎作为一站式的搜索开发运维中台,提供基于大数据深度学习在线服务体系( AIOS )生态的灵活定制开发能力、自动化集群管控和运维能力,用户可以根据业务特点,方便地构建搜索服务。
2、命题内容
本次题目围绕文娱网站场景的搜索算法,参赛者们可以通过基于阿里巴巴集团自研的高性能分布式搜索引擎问天引擎(提供高工程性能的文娱智能搜索平台),可以快速迭代搜索算法,无需自主建设检索全链路环境,完成用户检索内容的搜索推荐。
参赛者可从以下方向进行算法模型比拼,更鼓励参赛者基干基础模型做出更多的探索与创新:
(1)基于问天引擎提供的环境,实现文娱领域高质量向量召回模型,通过将 Doc 及 Query 转换为 embeddina 进行索引构建、搜索查询
(2)基于问天引擎与 PAI 平台,完成文娱领域搜索场景的精排模型,构建完整的搜索链路,输出最优的搜索效果
具体的算法模型比拼会分成两个部分,第一部分是基于问题引擎实现向量召回模型,需要对全部的 Doc 和测试的 Query 做向量化,提交 embedding 结果到问题引擎。第二部分是基于问题引擎和 PAI 平台完成精排模型,是对召回阶段的 topk 做重排序,提交排序模型到问题引擎。
3、答题要求
(1)边界要求:基于问天引擎架构的应用,符合问天引擎 应用规范
(2)交付要求:参赛者需要根据获取的 Doc 及 Query-Doc 相关训练集,自行训练向量召回模型及精排模型,我们通过回流数据,建向量索引,查询测试(该阶段会做超时限制,防止选手无限制扩大模型复杂度),给出评测指标
(3)提前学习的技术文档或视频:基于实际作品开发需求,熟悉阿里云问天引擎及 PAI 产品
4、阿里云技术支持社区
https://developer.aliyun.com/learning/topic/internetplus
命题解读
5分钟命题解读:包含命题解读、命题要求、考察要点、解题思路等
学习资料
为赛题提供相匹配技术课程、体系化学习路线提,供参赛者学习
场景动手体验
提供赛题所涉及的云产品试用与云端实验沙箱 环境供参赛者动手实操
提赛前训练营
供针对赛题的专项培训,阿里云专家讲解,助力参赛者取得好成绩
如果想了解更多信息可以加入阿里云技术支持社区获取更多的学习资料,或者参加技术训练营。