对用户建模：Minuum键盘背后的算法-阿里云开发者社区

对用户建模：Minuum键盘背后的算法

2021-11-15 214

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 当你开创一种新的键盘输入技术时，在交互设计以及后台算法方面，都有大量工作要做。你只需用一用，就能完全理解我们的键盘设计，而使得这种单行输入法可行的真实“魔力”在于驱动它的统计算法。I如果你还没见过或用过Minuum键盘，简单说，这项设计就是把传统的键盘压缩成仅仅一行，使得只要环境允许，在任何地方使用单行输入法成为可能。

当你开创一种新的键盘输入技术时，在交互设计以及后台算法方面，都有大量工作要做。你只需用一用，就能完全理解我们的键盘设计，而使得这种单行输入法可行的真实“魔力”在于驱动它的统计算法。I

如果你还没见过或用过Minuum键盘，简单说，这项设计就是把传统的键盘压缩成仅仅一行，使得只要环境允许，在任何地方使用单行输入法成为可能。

将键盘如此压缩之后，我们马上不得不面对一个基本事实：人类输入是不准确的，而且打字速度越快越不准确。我们并不试图提高用户输入的准确性，而是坦然接受纰漏。

只有同时使用自动更正和歧义消除技术，这种想法才能奏效。“自动更正”是指你输入错了需要纠正，而“歧义消除”承认人类的交互行为从根源上带有模糊性，并利用对语言的理解来减少它。试想一下，这就像语音识别：在一个嘈杂的酒吧里，你朋友们的谈话对错不是问题；人类语言总是模棱两可的，而环境的嘈杂肯定无益于理解。你听懂了谈话，全是因为你对他们的话题具备先验知识。

让我们进入贝叶斯统计的奇妙世界吧！

Minuum将两个因素结合起来判定单词，一个是空间模型（spatial model)，它能知道你敲击键盘的精确度（我们进行了用户研究来加以度量)，另一个是语言模型，它明白你想要使用哪个单词（我们是从现实生活中大量的文本中建立起这个模型）。假设你在键盘上敲击了五次，有点像是敲了个“hello”，我们就用下面这个贝叶斯方程来测试究竟它有多像你所想要输入的“hello”：

让我们把这个方程分成几个部分：以给定的键盘敲击为前提，你想要输入的单词是“hello”的概率与空间项与语言项之积成正比。空间项给出你按了一串键是想打出“hello”这个单词的可能性；语言项给出你曾经输入“hello”的概率。

Minuum所做的就是找到使p(word|taps)最大的单词。在上例中，Minuum会算出单词“hello”的得分。要找到那个最佳的单词，Minuum会将这个分数与其他单词的得分（同法所得）作比较。对给定的单词，你的击键位置与之越接近，这个单词的空间项值越高；一个单词在英语（或者是法语、德语、意大利语、西班牙语，只要你将其激活）中越是常见，语言项值就越大。

简单的空间模型

Minuum使用的空间模型真心不简单（请记得空间模型表示人们心中所想与键盘所打有多接近）。这个模型能处理多种误输入，如多打或少打字母。但是，简单模型将按键的概率密度视为以目标字母为中心的高斯分布，它的效果出奇的好。

这表示，如果你是想打一个“t”，那么“t”键的概率就是最大的，但是你按下了旁边“v”或“g”键的概率仍然相当可观。

简单的语言模型

最简单的语言模型就是计算词频。找一个语料库（corpus），计算每个单词出现了多少次。

Word	Frequency
if	1,115,786
IV	5335

要比较两个可能的单词，如“if”和“Ⅳ”，根据上表，键入的是“if”的可能性高出是“Ⅳ”的可能性约200倍。

这个简单模型和简单的空间模型一样，在实际运行中表现优异。更多的改进可以利用上下文，比如紧挨当前条目的上一词。

Word(s)	Frequency
what if	13,207
what of	1,380

短语“what if”比“what of”更常见约十倍，因此，即使“if”与“of”都是非常常见的单词，当前文是“what”时，我们可以肯定的推断“if”就是你想输入的单词。

单词对应高维空间中的点

每当我可以用几何形式将难题描述出来，我就能透彻地理解它。对于消歧难题，我的直觉理解突然顿悟，只要我们能洞悉:单词对应高维空间中的点，而打字就是搜索这些点的过程。不信？听我解释。

Minuum键盘是呈一条直线排列，所以你手指的敲击位置可以用一个数字表示，例如在下图中，敲击“q”键可以记为0至0.04间的一个数字，而按下“p”键可以用0.98至1间的数字表示。

字母闭联集，从0.0至1.0

两个字母的单词，需要击键两次，所以可以用一对数字来表示。单词“an”，如果输入准确无误，表示为{0.06,0.67}，而单词“if”表示为{0.83,0.40}。下图显示了一些常见两字母单词在“单词”空间中的位置。

对于更长的单词，处理的逻辑一模一样：”and“表示为{0.06,0.67,0.29}，”minuum“表示为{0.79, 0.83, 0.67, 0.71, 0.71, 0.79}。不幸的是，维数超过三，可视化就难得多了。

用户敲击的顺序在单词空间中也对应一个点，我们可以称其为输入点。一个单词离输入点越近，它在上文贝叶斯方程的空间项中就会得到更高的分数。奇怪的是，无论你想输入的是什么，它都和你在此空间中实际输入很”接近“。

就让我们来可视化几个单词吧！

我们可以生成一张全图，上面是位列Minuum建议榜首的两字母单词，这些单词都是基于所有可能的输入组合；图中，单词越是常见，它占有的面积越大。鼠标滑过该图，你可以看到程序建议的其他候选替换词。

用户之前输入了单词”what“，按下上面的上下文键，可以看到当我们使用更好的语言模型来分析时发生了什么。很明显，当我们考虑到上下文时，输入的更有可能是”if“，而不太可能建议替换为”in“，因为”what if“比起”what of“更常见，而”what in“没有”what I‘m“常见。1

统计建模使界面更友好

所有这些复杂的计算使得Minuum可以摆脱传统键盘的一些局限（单行键盘输入法甚至在1吋的屏幕上运行良好）。

这意味着什么呢？只有了解用户，界面才会更友好！谷歌即时搜索之所以厉害，在于它在你敲了两个键之后就知道你要找什么。苹果Siri也离不开复杂的语言建模。Minuum结合使用人类输入的空间和语言模型，可以简化键盘。如果你正在设计一个复杂的界面，好好考虑一下该怎么对用户行为建模以简化所需的交互行为吧。

不考虑上下文，”if“这个单词占有面积很小，周围的单词”it“和”of“占主导地位。这是使用QWERTY布局键盘的副作用。如果不考虑加入学习曲线，我们可以将键盘重新布局，让”i“和”o”还有”f“和”t“键离得很远！我们确实这样做了：马上就有论文发表出来。顺便说一句，这也是为什么Dvorak布局键盘在高歧义场合极为不利于使用；Dvorak键盘上所有的元音字母挨在一起，歧义显著增加。在直觉上，它改变了单词空间，让很多常见词互相紧邻。