11.57 基于扩展信息的移动App分类方法
移动 App 在移动用户的日常生活中扮演着十分重要的角色,通过研究其使用记录可以帮助深入理解用户的兴趣偏好,并且能够促成许多潜在的智能应用服务,例如移动 App 推荐、移动用户定向广告、移动用户市场分析等。
然而,我们在实践中发现,直接来自于移动App 的信息通常非常有限并且语义模糊。例如一个用于分析用户偏好的模型很难清晰地理解 App 使用记录:“用户正在玩 Angry Birds”,除非相应的App 能够被识别为一个预先设定好的语义类别:“动作游戏”。事实上,由于移动 App 巨大的数量,以及快速的增长速度,我们十分迫切地需要一种自动化的有效方法来实现移动 App 的语义分类。尽管如此,一种可能的实现方法是直接利用移动 App 分发平台(例如 Apple Appstore 等)自带的分类体系作为原子数据(Metadata),并用其对移动 App 进行自动化识别。但是,这些原始的分类数据通常不够精确,很难准确地描述用户在使用这些 App 时的潜在语义,因而无法帮助我们精确地理解用户。
事实上,移动 App 分类不是一个简单的工作,一直尚未被深入研究。在实践中,一个最主要的挑战来自于缺乏充分的显式分类特征进行分类模型训练,这是因为移动 App 本身所具有的上下文信息非常有限。具体来说,给定一个移动 App,其唯一可用的显式分类特征就是其名称中包含的单词。然而,通过分析发现这些单词通常非常少且非常稀疏。
基于上面的挑战,我们提出一种基于扩展信息的移动 App 分类方法,能够同时利用来自于 Web和情境日志的辅助信息扩展移动 App 本身缺乏的分类特征。根据近年来一些最新的短文本分类研究成果[10-11] ,一个用于扩充原始稀疏文本特征的有效方法是利用来自于 Web 的语义知识。受此启发,我们提出使用 Web 搜索引擎来获取某个给定移动 App的搜索摘要(Search Snippet),并以此作为辅助信息扩展移动 App 的文本分类特征。但是,对于一些不流行或者刚开发的新 App,有时通过搜索引擎无法获取足够的 Web 描述信息构建分类特征。在这种情况下,我们提出利用另一种有效的信息,即来自于真实世界的情境信息去构建 App 的分类特征。根据近年来一些关于情境感知的研究成果[9] ,用户对于移动 App 的使用通常是情境感知的。例如,和商业相关的 App 通常会在工作的情境下被使用,而一个游戏App则很有可能在休闲娱乐的情境下被使用。相比于来自于 Web 的辅助信息,这些来自于真实世界的情境信息能够很好地帮助分析那些新开发的或者不流行的移动 App,因为这些 App 的使用记录可以从之前所提到的用户情境日志中获得。因此,我们提出使用真实世界的情境信息来扩充移动 App 的分类特征,并训练相应的分类器。图 2 展示了所提分类算法的具体框架。