.本节书摘来自华章出版社《机器学习系统设计:Python语言实现》一书中的第2章,第2.7节,作者 [美] 戴维·朱利安(David Julian),更多章节内容可以访问云栖社区“华章计算机”公众号查看
2.7 SciPy
SciPy对NumPy增加了一层,在NumPy更为纯粹的数学构造之上,封装了常用的科学和统计应用。SciPy为数据的操作和可视化提供了更高级的函数,并且特别适用于交互式地使用Python。SciPy由覆盖了不同科学计算应用的子包组成。下面列出了与机器学习最为相关的包及其功能:
NumPy和SciPy包中有很多名字相同且功能类似的模块,其中SciPy中的大部分模块都是从NumPy导入的,并进行了功能扩展。然而需要注意的是,虽然SciPy中有些函数的名字和NumPy完全一样,但是其功能却稍有不同。还需要提示的是,SciPy的很多类在scikit-learn包中都有便利性的封装,有时这些封装更容易使用。
每个包都需要显式导入,如以下代码所示:
我们可以从SciPy的网站(scipy.org)或控制台获得其文档,例如,help(scipy.cluster)。
正如我们所见,优化是不同机器学习环境中的常见任务。在上一章,我们考察了单纯形法的数学原理,这里,我们使用SciPy对其进行实现。我们使用单纯形法对线性方程组进行了优化,问题如下:
在约束方程中,2x1 + x2≤4和x1 + 2x2≤3,求x1 + x2的最大值。
linprog可能是解决此问题最简单的对象,它是最小化算法,因此我们需要反转目标的符号。
首先从scipy.optimize导入linprog:
我们可以观察到如下输出:
这里还有个对象是optimisation.minimize,适于解决稍微复杂一些的问题。此对象需要一个求解器作为参数,而目前有十几个可用的求解器,如果需要更为特殊的求解器,则可以自己实现一个。最常用的,适于大多数问题的求解器是nelder-mead。这一特殊的求解器使用了下降单纯形法(downhill simplex),这基本上是一种启发式搜索,即用所有剩余点的质心点来替换误差最高的测试点,并不断迭代这一过程,直到收敛为最小。
在下面的例子中,我们使用Rosenbrock函数作为测试问题。这是个非凸函数,常用来检验优化问题。该函数的全局极小值在一个长的抛物线波谷,因此,要在一个大的、相对平坦的波谷中找到极小值,对于算法来说是具有挑战的。该函数示例如下:
上面代码的输出如下:
上例中的minimize函数有两个强制性参数,即目标函数和初始值x0。此外还需要一个可选参数,即求解器方法,此例中我们使用nelder-mead方法。字典options是特定于求解器的一组键值对。这里,xtol是对收敛可接受的相对误差,disp用于设置消息打印。对于机器学习应用极为有用的另一个包是scipy.linalg。这个包增加了执行诸如逆矩阵、特征值计算,以及矩阵分解等任务的能力。