本节书摘来异步社区《机器学习项目开发实战》一书中的第1章,第1.7节,作者:【美】Mathias Brandewinder(马蒂亚斯·布兰德温德尔),更多章节内容可以访问云栖社区“异步社区”公众号查看
1.7 我们学到了什么
我们在本章中介绍了许多基础知识!在机器学习方面,你现在已经熟悉了一些关键概念和方法学。如果你是F#的新手,现在也已经编写了第一段F#代码!
下面回顾一些要点,先从机器学习方面开始。
首先,我们讨论了交叉验证——使用不同数据集进行训练和验证,留出某些数据评估预测模型质量的过程。这从许多方面看都是关键的过程。首先,它为你提供一个基准——指导试验的“真实状态”。没有验证集,就无法判断特定模型是否比另一个模型好。交叉验证可以科学地计量质量,它的作用类似于自动化测试套件,可以在开发工作偏离方向时提出警告。
建立了交叉验证机制,就可以在可量化的基础上试验、选择模型或者方向。反复尝试方法是“进行机器学习”的关键部分。没有一种方法能够事先知道特定的方法是否有效,所以必须在数据上尝试,自行观察,因此为成功做好准备,接受“可复制研究”的思路非常重要。尽可能用脚本使你的研究过程自动化,大量使用源代码控制,以便在任何时点、没有人工干预的情况下复制模型的每一步。总而言之,做好准备,使自己能够轻松地更改和运行代码。
1.7.1 在好的距离函数中能找到什么
在数字识别器的探索中,我们发现所使用的距离中的小小变化就能显著地改进模型,大部分(所有?)机器学习模型的核心中都有一个距离函数。所有学习过程归根结底都是计算机找出为特定问题搭配已知数据的最佳方式的尝试——“最佳搭配”的定义完全封装在距离函数中。
在某种程度上,距离函数的作用是利用数学方法,将你的目标从人类理解的形式转换成机器理解的语句。距离函数也常常被称作代价函数,从代价上考虑更多地强调了“坏”解决方案之所以不好的原因——所招致的惩罚,帮助我们避免选择不好的解决方案。
在我的经验中,花时间思考代价函数总是值得的。不管使用的算法有多巧妙,如果代价函数有缺陷,结果就很糟糕。想象一个包含两个计量值的个人数据集:以英尺为单位的身高和以磅为单位的体重。如果我们按照图像识别中使用的方法,在数据集中搜索“最相似的人”,就会发生这样的情况:身高的范围通常在5~6英尺(1英尺0.3048米)之间,而体重的范围更广,差别更大,例如100~200磅(1磅=0.4536千克)。因此,直接根据两个计量值之间的差值计算距离实际上将忽略身高的差别,因为1英尺的差别等价于1磅的差别。解决这个问题的方法之一是转换所有身体特征,确保它们处于一致的比例——这一过程称作“规格化”,是后面将要详细讨论的一个主题。幸运的是,所有像素都在相同的标度上编码,在本章中可以忽略这个问题,但是我希望这个“距离产生错误”的例子能够让你认识到,为什么距离函数需要深思熟虑!
这也是正确的数学定义真正起作用的情况之一。如果你翻起在学校时的数学笔记,就会看到距离函数(数学家们有时候称之为“度量标准”)由几个属性定义:
Distance(A,B) > 0(距离不能为负数)。
当且仅当A=B时,Distance(A,B) = 0(只有A和自己的距离为0)。
Distance(A,B) = Distance(B,A)(对称性:从A到B的距离等于从B到A的距离)。
Distance(A,B) <= Distance(A,C) +Distance(C,B)(“三角不等式”:两点之间直线最短)。
在本章中我们只关注两种距离,但是满足上述属性的函数多种多样,每一种都以不同的方式定义了相似性。因此,模型中的代价函数不需要满足所有属性,但是一般来说,如果不满足某些属性,你应该问问自己可能会因此引起什么意外的副作用。例如,在曼哈顿距离的第一个例子中,如果我们忽略了绝对值,就明显地违反了规则1(距离非负)和规则3(对称性)。在某些情况下,随意使用不为度量指标的函数有充足的理由,但是发生这种情况时,应该多花一点时间思考可能出现问题的地方!
1.7.2 模型不一定要很复杂
最后,我希望强调的是,有效的模型并不一定很复杂!不管在C#还是F#中,两个分类器都很小,使用的是相当简单的数学方法。当然,有些复杂模型也能提供惊艳的结果,但是如果能用容易理解和修改的简单模型得到相同的结果,那么为什么不省点事呢?
这一原则称作“奥卡姆剃刀”,名称来源于中世纪哲学家“奥卡姆的威廉”。奥卡姆剃刀遵循经济原理。试图解释某一事物时,在多个可能合适的模型中选择最简单的一个。只有在简单的解释无法奏效时,才选择复杂的模型。
同理,我们首先实施“可能有效的最简方法”,我很鼓励你遵循这一方法。如果不这样做,可能会发生这样的情况:你开始实施几个可能有效的方法,它们激发出新的思路,因此很快你将有许多不成熟的原型,在丛林中越陷越深,而没有清晰的过程或者方法。突然之间,你将意识到自己已经为编码花费了几周,却还没有确定任何有效的方法或者前进的方向。这不是一种好的感觉。管理自己的时间,花费一天(或者一周、一小时——任何对你的问题来说切合实际的时间)用能够想到的最蠢、最简单的预测模型建立一个端到端模型。这个模型可能已经足够好了,这样的情况下就不会浪费任何时间。如果它不够好,此时你已经有了合适的机制,准备了数据集成和交叉验证,也很有可能已经发现了数据集中存在的意外问题。你将从合适的位置进入丛林。
1.7.3 为什么使用F#?
如果这是你第一次遭遇F#,开始时可能会觉得奇怪:我为什么介绍那种语言,而不坚持使用C#? 我希望书中的例子清楚地说明了原因!在我看来,C#虽然是一种很出色的语言,但是F#和机器学习及数据探索的搭配简直不可思议!在接下来的几章中将看到F#的更多特性,但是我希望这些理由在本章中就已经很清晰。
首先,F#的交互执行和脚本环境绝对可以节约时间。在开发机器学习模型时,快速试验、更改代码、查看效果是至关重要的,因此需要一个脚本环境。我的典型F#工作流是在每天开始时将数据加载到交互执行环境中。我不需要再次加载它们——数据已经在内存中,可以自由地摆弄模型。相比之下,在C#中测试新思路迫使我重建代码并重新加载数据,这最终会成为一个巨大的时间陷阱。
而且,F#的一些语言特性使其极适合于数据操纵。它聚焦于函数而非对象,擅长将函数应用到数据,以任何需要的方式组成函数。管道向前操作符|>对组合这些转换很方便,创建了一个管道,以非常容易理解的方式表现数据转换工作流。结合将数据打包为元组和用模式匹配解包元组的能力,以及Array、List和Seq模块中大量的内建函数,就可以得到和LINQ一样的增强功能,以任何方式转换和改造数据。