中国人工智能学会通讯——互联网搜索技术的前沿探索 0 引 言-阿里云开发者社区

开发者社区> 人工智能> 正文
登录阅读全文

中国人工智能学会通讯——互联网搜索技术的前沿探索 0 引 言

简介:

image

摘要: 互联网搜索系统旨在解决用户需求与网络数据之间的信息鸿沟,为用户提供高效的信息获取服务。然而,互联网搜索引擎在组织、刻画海量网络数据内容,理解、匹配复杂多样的用户信息需求等方面面临着一系列技术挑战。针对这些挑战性问题,我们从对用户需求、网络数据与匹配关系的深入理解与建模入手,在查询理解与处理、文本内容建模和信息排序三方面形成了一系列新颖的机器学习模型与算法;进一步也在深度学习与信息检索的结合方面展开了前沿的探索。关键词:信息检索;查询理解;文本建模;排序学习;深度学习

0 引 言

互联网搜索引擎是人们获取网络信息的主要工具,它试图在用户需求空间与网络数据空间架设一座桥梁,帮助用户从海量的网络数据中快速高效地找到自己所需要的信息资源。众所周知“大数据”成了当下的时代特征,但是对互联网搜索引擎而言,其实它早就步入了大数据的时代,这既体现在搜索引擎索引的网络数据的“大”(据报道Google在2008年索引的网页数据量已经达到1万亿),也体现在搜索用户的“大”(据报道Goolge在2012年每天处理的搜索请求就已达到30亿次)。这两个“大”特点,对互联网搜索技术而言是一把双刃剑:一方面,网络数据内容的庞大、异构、嘈杂,用户需求的庞大、细微、模糊,以及这两种数据内在的差异,导致这两个空间的匹配与映射计算复杂度高、计算精度差;另一方面,大规模的查询数据、网页数据、交互行为数据又为机器学习算法提供了丰富的数据基础,通过对这些数据深入的挖掘与使用,将有可能更好地理解用户需求与网络信息,大幅提升用户的搜索体验。

高质量的互联网搜索离不开对三个方面的核心问题的解决,即用户理解、资源建模与结果匹配。我们的研究工作也是围绕这三个方面展开,包括用户查询理解与处理、文本内容建模,以及信息匹配与排序。首先,用户查询是用户表达信息需求的主要手段,要理解用户意图,就需要对用户查询进行深层次的理解与处理,这是决定检索成功的第一步。但用户查询简短、语义模糊、形式不规范等特点,给查询理解与处理带来了巨大的挑战。其次,尽管网络数据对象异构多样(包含文档、图片、音视频等),传统的信息检索技术还是主要围绕文本展开(例如图片搜索通常也是通过相关文本信息实现),所以我们重点关注对海量网络文本内容的建模。但网络文本数据高维稀疏的特点,使得提取高质量的语义信息更加困难。最后,信息匹配与排序主要是对检索模型的研究,在这个方向上,排序学习技术由于其坚实的理论基础、灵活的建模方式和优异的排序性能,成为了学术界和工业界主流的检索模型,但是在标注、建模和评价体系上,传统的排序学习方法仍然存在很大的改进空间。

在接下来的部分,本文将重点介绍我们在用户查询理解与处理、文本内容建模以及信息匹配与排序方面取得的一些研究成果。在此之后,简要介绍当前我们在深度学习与信息检索结合方面所做的一些探索。最后是对全文的总结与对未来的展望。

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

分享:
人工智能
使用钉钉扫一扫加入圈子
+ 订阅

了解行业+人工智能最先进的技术和实践,参与行业+人工智能实践项目

其他文章
最新文章
相关文章