【吴恩达机器学习笔记】八、应用机器学习的建议

2023-06-18 110

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【吴恩达机器学习笔记】八、应用机器学习的建议

八、应用机器学习的建议

1. 决定下一步要做什么

假如你现在想用一个常规的线性回归算法去预测房屋的价格，但是你发现预测的结果与实际结果偏差很大，那么你可以考虑下面的这几点：

尝试获得更多的数据集去训练模型。

尝试减少的特征值，有时可能会因为过拟合导致结果不精确。

尝试增加的特征值，有时可能项目太大，但是特征值太少。

尝试增加多项式特征（x12,x22,x1x2等）。

尝试增加λ值。

尝试减小λ值。

当然，有时候你可能做完了项目才发现某些算法并不理想，所以后面的内容将介绍该如何排除一些不适合的算法，并且告诉你上面这些方法可以用来解决哪些问题。

2. 评估假设函数

这节课，我们来讲讲该如何去评估你的假设函数，因为有时候误差很小并不是一件好事，可能是过拟合了，当特征量特别多的时候，就很难通过画图去评估假设函数，所以要用到接下来要讲的方法。

首先，对于数据集的处理，我们可以分为两个部分：

一部分为训练集，一部分为测试集，而我们通常将训练集和测试集按照7:3的比例进行划分，这里要注意，所划分的数据集要是随机的。

训练和测试线性回归的步骤：

将70％的数据集拿去训练，然后计算出最小的训练误差，得到θ值。

计算测试误差。

训练和测试逻辑回归的步骤：

将70％的数据集拿去训练，然后计算出最小的训练误差，得到θ值。

计算测试误差。

还有一种度量方式是0/1错误分类度量（Misclassification error），可能更好理解一些：

当err为1时，说明分类错误即当hθ(x)≥0.5时，将y判断成了0。

当err为0时，说明此时分类正确。

3. 模型选择和训练、验证、测试集

这节课我们来看看该如何去选择一个合适的模型，首先先来回顾一下之前的模型选择步骤：

我们之前是用训练集来最小化每一个模型得到θ，然后用同一个训练集来测试哪个误差最小，选出最优的那个模型，而其中出现的d代表的是多项式的阶数。我们假设上面模型中最优的是第五个即d=5，但是这个结果可能过于乐观了，因为它只是针对于训练集训练出的结果，如果放在新样本中可能效果就不会那么好了，所以接下来就要引出验证集了。