1 用户查询理解与处理
用户查询理解与处理旨在通过对用户输入查询的建模、分析和处理,理解用户查询的意图,提高信息检索的质量和用户体验。用户查询通常表述简单、文字不规范、语义也十分模糊,使得理解非常困难,但同时,搜索引擎积累的大规模用户查询日志又为深层次理解用户查询意图提供了基础且宝贵的资源。我们的研究工作从单个查询、多个查询以及查询序列逐层展开,研究了查询的表达与解析[1-2]、查询关系度量[3-4],以及搜索效用建模[5],提出了适用于简短模糊查询的概率图模型,逐层深入地理解用户的查询意图。代表性的成果有如下几个方面。
1.1 查询表达优化
针对不规范、模糊的用户查询进行机器可理解的优化处理这一问题,我们提出了一体化区分式查询优化模型——CRF-QR[1],可利用大规模查询日志一体化实现多种优化操作。具体的,CRF-QR方法将查询优化看成是一个结构化预测问题,即给定一个输入序列x,要预测最优的输出序列y,满足y= argmaxy Pr(y|x)(如图1(a)所示)。该问题面临两个难点:①如何有效利用数据中的复杂特征进行建模;②如何高效地实现高维输入空间和输出空间之间的映射。CRF-QR 模型核心思想是将优化操作变量引入到条件随机场模型中(如图1 (b)和(c)所示)。模型具有两大优点:①通过区分式模型直接利用查询日志中的复杂特征进行预测,避免传统产生式模型建模复杂特征产生过程的难题;②通过引入操作变量进行“约束映射”,使得预测空间的维度降低了2~3个数量级,大幅提高了模型学习的效率。
1.2 查询相关关系度量
在查询关系度量方面,由于查询词语义模糊和用户检索意图的多样性,传统采用单一尺度的查询相似性度量无法准确刻画查询的语义相关性。针对这一难题,我们提出了基于检索意图感知的查询相似性度量(Intent-aware Query Similarity)[2],将查询相似度的计算定义在检索意图之上,建模了检索意图的多样性和不确定性,避免了传统单一尺度度量准则的不足。具体而言,该方法分为两个阶段。首先,利用检索结果及查询点击日志数据,通过正则化话题混合模型来建模和学习用户的潜在检索意图。在理解意图的基础上,抽取出基于不同检索意图的查询表达,即意图感知的表达(Intent-aware Representation),最终实现基于意图感知的查询相似度计算。该方法[3]长文发表于ACM CIKM 2011上,在所有录用的134篇长文中,被评为唯一一篇最佳论文(Best Paper Award)。