《机器学习系统设计：Python语言实现》一1.1　人机界面-阿里云开发者社区

《机器学习系统设计：Python语言实现》一1.1　人机界面

2017-05-02 2435

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

.本节书摘来自华章出版社《机器学习系统设计：Python语言实现》一书中的第1章，第1.1节，作者 [美] 戴维·朱利安（David Julian），更多章节内容可以访问云栖社区“华章计算机”公众号查看

1.1　人机界面

如果你有幸用过微软Office套件的早期版本，你大概还能记得Mr Clippy办公助手。这一功能出现在Office 97中，每当你在文档开头输入“亲爱的”，它就会不请自来，从电脑屏幕的右下角蹦出来，询问“你好像在写信，需要帮助吗？”
在Office的早期版本中，Mr Clippy是默认开启的，几乎被所有软件用户嘲笑过，这可以作为机器学习的第一次大败笔而载入史册。
那么，为什么这个欢乐的Mr Clippy会如此遭人痛恨呢？在日常办公任务中使用自动化助手不一定是个坏主意。实际上，自动化助手的后期版本，至少是最好的那几个，可以在后台无缝运行，并能明显提高工作效率。文本预测有很多例子，有些很搞笑，大错特错，但大多数并没有失败，它们悄无声息，已经成为我们正常工作流的一部分。
在这一点上，我们需要区分错误和失败的不同。Mr Clippy的失败是因为它的突兀和差劲的设计，而它的预测并不一定是错误的；也就是说，它可能给出了正确的建议，但那时你已经知道你正在写一封信件。文本预测的错误率很高，经常会得出错误的预测，但这并没有失败，主要是因为它的失败方式被设计为悄无声息的。
设计任何与人机界面紧耦合（系统工程的说法）的系统都很困难。与一般的自然界事物一样，我们并非总能预测人类行为。表情识别系统、自然语言处理和手势识别技术等，开启了人机交互的新途径，对机器学习专家而言，所有这些都具有重要的应用。
每当设计需要人机输入的系统时，我们应当预见所有可能的人机交互方式，而不仅仅是我们所期望的那些方式。在本质上，我们对这些系统试图要做的是，培养它们对人类经验全景的一些理解。
在Web的早期，搜索引擎使用的是一种简单的系统，以文章中出现搜索条件的次数为基础。很快，Web开发者就通过增加关键词与搜索引擎展开了博弈。显然，这将导致一场围绕关键词的竞赛，Web将变得极为烦人。随后，为了提供更为准确的搜索结果，人们又设计了度量优质引用链接的页面排名系统。而今，现代搜索引擎都使用了更为复杂和秘密的算法。
对机器学习设计师同样重要的是，人机交互中所产生的数据量一直在增长。这会带来诸多挑战，尤其是数据的庞大浩瀚。然而，算法的力量正是在于从海量数据中提取知识和洞察力，这对于较小规模的数据集几乎是不可能的。因此，如今大量的人机交互被数字化，而我们才刚刚开始理解和探索其中的数据能够被利用的众多途径。
有项研究的题目为《20世纪书籍中的情绪表现》（The expression of emotion in 20th century books, Acerbi等人，2013），这是一个有趣的例子。尽管严格地说，该研究属于数据分析而非机器学习，但就一些理由而言，它还是具有说明性的。该研究的目的是，从20世纪的书籍中抽取情绪内容文本，以情绪分值的形式进行图表化。通过访问Gutenberg数字图书馆、WordNet（http://wordnet.princeton.edu/wordnet/）和Google的Ngram数据库（books.google.com/ngrams）中的大量数字化书籍，该研究的作者能够绘制出20世纪文学作品中所反映出的文化变迁。他们通过绘制情绪词语使用的趋势来实现其研究目的。
在该研究中，作者对每个词语进行标记（1-gram分词算法），并与情绪分值和出版年份进行关联。诸如快乐、悲伤、恐惧等情绪词语，可以依据其表达的正面或负面情绪进行评分。情绪分值可以从WordNet（wordnet.princeton.edu）获得。WordNet给每个情绪词语都赋予了情绪反应分值。最后，作者对每一情绪词语的出现次数进行了计数：

在此式中，ci表示特定情绪词语的计数，n表示情绪词语的总数（不是所有词语，仅包括具有情绪分值的词语），Cthe表示文本中the的计数。在归一化总和时，考虑到一些年份出版或数字化的书籍数量更多，同时晚期的书籍趋向于包含更多的技术语言，因此使用了词语the而不是所有词语的计数。对于在相当长的一段时期内的散文文本中的情绪，这种表示更为精确。最后，通过正态分布对分值进行归一化，即Mz，减去均值后除以标准差。

上图摘自《20世纪书籍中的情绪表现》（The expression of emotion in 20th century books, Alberto Acerbi, Vasileios Lampos, Phillip Garnett, R. Alexander Bentley）美国科学公共图书馆。
这里，我们可以看到该项研究所生成的一张图表。该图显示了这一时期所著书籍的快乐-悲伤分值，从中可以明显看出二战时期的负面倾向。
这项研究之所以有趣，有如下一些原因。首先，它是一项数据驱动的科学研究，而在过去，类似的研究内容被认为是诸如社会学和人类学的软科学，但在该研究中，给出了坚实的实验基础。此外，尽管其研究结论令人印象深刻，但其实现过程相对容易。这主要得益于WordNet和Google已经完成的那些卓越努力。其亮点在于，如何使用互联网上免费的数据资源和软件工具，例如Python的数据和机器学习包等，任何具备数据技能和动机的人都能够从事这方面的研究。

《机器学习系统设计：Python语言实现》一1.1　人机界面

1.1　人机界面

华章出版社

热门文章

最新文章

相关课程

相关电子书

推荐镜像

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

《机器学习系统设计：Python语言实现》一1.1 人机界面

1.1 人机界面

华章出版社

热门文章

最新文章

相关课程

相关电子书

推荐镜像

《机器学习系统设计：Python语言实现》一1.1　人机界面

1.1　人机界面