机器学习基础：分类vs回归-阿里云开发者社区

机器学习基础：分类vs回归

2017-12-13 8311

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 在机器学习中我们也许会对分类和回归两个算法有所混淆或者困惑，看完本文相信会有所收获

经常看到这样的问题：“如何计算回归问题的准确度？”像这样的问题反映了没有真正理解分类和回归之间的区别，以及测量的准确度是什么。

这是分类和回归问题之间的一个重要区别。从根本上说，分类就是预测一个标签，而回归则是预测一个数量。

在本文中，你将发现分类和回归之间的区别。

看完文章后，你将会知道：

预测模型是关于从输入到输出学习映射函数的问题，称为函数逼近。
分类是预测离散类标签输出的问题。
回归是预测连续数量输出的问题。

让我们开始吧。

文章概述

本文分为5部分，它们是：

函数逼近
分类
回归
分类与回归
分类与回归问题之间的转换

函数逼近

预测建模是用历史数据来建立一个模型来预测新数据，针对我们没有答案的问题。

有关预测建模的更多信息，请参见：

简要介绍预测建模

预测建模可以描述为从输入变量（x）到输出变量（y）逼近映射函数（f）的数学问题。这称为函数逼近问题。

建模算法的工作是在我们可以提供可用的时间和资源的情况下，找到最好的映射函数。

有关应用机器学习中的逼近函数的更多信息，请参见：

机器学习算法如何工作

一般来说，我们可以把所有函数逼近任务划分为分类任务和回归任务。

分类预测模型

分类预测建模是将映射函数（f）从输入变量（x）逼近到离散输出变量（y）的任务。

输出变量通常称为标签或类别。映射函数预测给定观测值的类或类别。

例如，文本电子邮件可以分为两类：“垃圾邮件”和“非垃圾邮件”。

分类问题要求将实例分为两个或多个类中的一个。
分类可以有实值或离散的输入变量。
两类问题通常被称为二类或二元分类问题。
多于两个类别的问题通常被称为多类别分类问题。
一个例子被指派多个类的问题被称为多标签分类问题。

分类模型通常将连续值预测为属于每个输出类别的给定示例的概率。概率可以被解释为属于每个类别的给定例子的可能性或置信度。可以通过选择具有最高概率的类别标签将预测概率转换为类别值。

例如，特定的文本电子邮件可能被指定为“垃圾邮件”的概率为0.1，“非垃圾邮件”的概率为0.9。通过选择“非垃圾邮件”标签，我们可以将这些概率转换为类标签，因为它具有最高的预测可能性。

评估分类预测模型的技巧有很多种方法，但最常见的方法是计算分类准确度。

分类准确率是所有预测中正确分类的百分比。

例如，如果一个分类预测模型做了5个预测，其中3个是正确的，2个是不正确的，那么基于这些预测的模型的分类准确性将是：

accuracy = correct predictions / total predictions * 100
    accuracy = 3 / 5 * 100
    accuracy = 60%

能够学习分类预测模型的算法被称为分类算法。

回归预测建模

回归预测建模是将输入变量（X）映射到连续输出变量（y）的映射函数（f）的任务。

连续输出变量是一个实数值，例如整数或浮点值。这些往往是数量，如金额和大小。

例如，一所房子可能会以特定的美元价值出售，可能在$ 100,000到$ 200,000的范围内。

回归问题需要预测数量。
回归可以具有实值或离散的输入变量。
多输入变量的问题通常称为多元回归问题。
输入变量按时间排序的回归问题称为时间序列预测问题。

由于回归预测模型预测一个数量，所以该模型的技巧必须作为这些预测中的一个误差来报告。

估计回归预测模型的技巧有许多方法，但最常见的可能是计算均方根误差，缩写为首字母缩略词是RMSE。

例如，如果一个回归预测模型做了2个预测，其中1.5的期望值是1.0，另一个是3.3，期望值是3.0，那么RMSE是：

RMSE = sqrt(average(error^2))
    RMSE = sqrt(((1.0 - 1.5)^2 + (3.0 - 3.3)^2) / 2)
    RMSE = sqrt((0.25 + 0.09) / 2)
    RMSE = sqrt(0.17)
    RMSE = 0.412

RMSE的一个优点是错误分数的单位与预测值的单位相同。

能够学习回归预测模型的算法被称为回归算法。

一些算法的名称中包含“回归”这个词，如线性回归和逻辑回归，因为线性回归是一种回归算法，而逻辑回归是一种分类算法，这令人感到困惑。

分类与回归

分类预测建模问题不同于回归预测建模问题。

分类是预测离散类标签的任务。
回归是预测连续数量的任务。

分类和回归算法之间有一些重叠，例如：

分类算法可以预测连续值，但是连续值是以类标签的概率的形式。
回归算法可以预测离散值，但离散值以整数形式表示。

一些算法可用于分类和回归的小修改，例如决策树和人工神经网络。有些算法不能或不能很容易地用于这两种问题类型，例如用于回归预测建模的线性回归和用于分类预测建模的逻辑回归。

重要的是，我们评估分类和回归预测的方法各不相同，也不重叠：

分类预测可以使用准确性进行评估，而回归预测则不能。
回归预测可以使用均方根误差进行评估，而分类预测则不能。

分类和回归问题之间的转换

在某些情况下，将回归问题转换为分类问题是可能的。例如，要预测的数量可以转换成离散的量。

例如，连续0至100美元之间的金额可以转换成2个量：

第0类：0至49美元
第1类：50至100美元

这通常被称为离散化，产生的输出变量是一种分类，其中标签有一个有序的关系（称为序数）。

在某些情况下，分类问题可以转化为回归问题。例如，标签可以被转换成连续的范围。

有些算法通过预测每一个类的概率，从而依次缩放到特定的范围：

quantity = min + probability * range

另外，可以将类值排序并映射到连续范围：

0到49美元为第1类
50到100美元为第二类

如果分类问题中的类别标签不具有自然的序数关系，则从分类到回归的转换可能会导致令人惊讶或糟糕的性能，因为该模型可能会从输入到连续输出范围学习错误或不存在的映射。

进一步的阅读

如果你想深入了解，本节将提供更多有关该主题的资源。

总结

在本教程中，你了解了分类和回归问题之间的区别。

具体来说，你了解到：

预测建模是关于从输入到输出学习映射函数的问题，称为函数逼近。
分类是预测离散类标签输出的问题。
回归是预测连续数量输出的问题。

作者信息

Dr. Jason Brownlee 是一名机器学习从业者，学术研究人员，致力于帮助开发人员从入门到精通机器学习。

本文由北邮@爱可可-爱生活老师推荐，阿里云云栖社区组织翻译。

文章原标题《Difference Between Classification and Regression in Machine Learning》

作者：Dr.Jason Brownlee 译者：董昭男审核：海棠

文章为简译，更为详细内容，请查看原文

机器学习基础：分类vs回归

文章概述

函数逼近

分类预测模型

回归预测建模

分类与回归

分类和回归问题之间的转换

进一步的阅读

总结

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

机器学习基础：分类vs回归

文章概述

函数逼近

分类预测模型

回归预测建模

分类与回归

分类和回归问题之间的转换

进一步的阅读

总结

热门文章

最新文章

相关课程

相关电子书

相关实验场景