详解机器学习的类型

本文涉及的产品
服务治理 MSE Sentinel/OpenSergo,Agent数量 不受限
可观测可视化 Grafana 版,10个用户账号 1个月
简介: 机器学习按照输出空间划分的话,包括二元分类、多元分类、回归、结构化学习等不同的类型。其中二元分类和回归是最基础、最核心的两个类型。

👏 Hi! 我是 Yumuing,一个技术的敲钟人

👨‍💻 每天分享技术文章,永远做技术的朝拜者

📚 欢迎关注我的博客:Yumuing's blog

机器学习按照输出空间划分的话,包括二元分类、多元分类、回归、结构化学习等不同的类型。其中二元分类和回归是最基础、最核心的两个类型。

注:学习自林轩田机器学习基石国语国语

1.1.1 问题类型划分(输出空间)

如果设定问题场景为考试环境下,二元分类问题就类似与判断题,而多类别(后称多元问题)分类问题就像是选择题,需要在多个选项中做出正确的答案。

在癌症病症的诊断中,可以进行预测癌症的类型或者没有癌症,在邮件的拦截中,不仅仅针对垃圾邮件的识别,还能针对邮件的类型进行划分,如社交领域、学术领域等等,而在统计学中,如果输出数为一个实数或者说一定范围内的实数的话,它就属于一种回归分析的类型。

如果说,想要去对于自然语言,即语言文本进行处理的话,当然,如果只是单词,就简单了,但现实是,基本是在在一个完整的语境下(句子)进行判断,而每个词的词性就存在多样的变化,这时候,我们该如何去识别呢?其实,这很复杂,但都离不开一个算法,结构化学习方法(自然语言下就是语法结构的学习)。

总的来说,机器学习按照输出空间划分的话,包括二元分类、多元分类、回归、结构化学习等不同的类型。其中二元分类和回归是最基础、最核心的两个类型。

1.1.2 数据标签划分

如果我们采用的训练数据是一个原始数据以及它的正确分析(在这里,就是分类)结果的话,就是一种监督式的机器学习方法。如果只是原始数据的话,那就是一种无监督式学习,但机器学习只能划分出类别数据以及影响划分类别的重要因素,而不知道类别具体的含义,并且,无监督式学习对比监督式学习,前者可能存在划分类别数目上的困难,甚至是错误。监督式学习更符合严格分类的要求,而无监督式学习更像去发现数据的特征进行分群,典型的非监督式学习包括:聚类(clustering)问题,比如对网页上新闻的自动分类;密度估计,比如交通路况分析;异常检测,比如用户网络流量监测。通常情况下,非监督式学习更复杂一些。

介于监督式和非监督式学习之间的叫做半监督式学习(Semisupervised Learning)。顾名思义,半监督式学习就是说一部分数据有输出标签yn,而另一部分数据没有输出标签yn。在实际应用中,半监督式学习有时候是必须的,比如医药公司对某些药物进行检测,考虑到成本和实验人群限制等问题,只有一部分数据有输出标签yn。

监督式、非监督式、半监督式学习是机器学习领域三个主要类型。除此之外,还有一种非常重要的类型:增强学习。增强学习中,我们给模型或系统一些输入,但是给不了我们希望的真实的输出y,根据模型的输出反馈,如果反馈结果良好,更接近真实输出,就给其正向激励,如果反馈结果不好,偏离真实输出,就给其反向激励。不断通过“反馈修正”这种形式,一步一步让模型学习的更好,这就是增强学习的核心所在。

增强学习可以类比成训练宠物的过程,比如我们要训练狗狗坐下,但是狗狗无法直接听懂我们的指令“sit down”。在训练过程中,我们给狗狗示意,如果它表现得好,我们就给他奖励,如果它做跟sit down完全无关的动作,我们就给它小小的惩罚。这样不断修正狗狗的动作,最终能让它按照我们的指令来行动。

实际生活中,增强学习的例子也很多,比如根据用户点击、选择而不断改进的广告系统。

简单总结一下,机器学习按照数据输出标签yn划分的话,包括监督式学习、非监督式学习、半监督式学习和增强学习等。其中,监督式学习应用最为广泛。

1.1.3 协议划分

按照不同的协议,机器学习可以分为三种类型:

  • Batch Learning

  • Online

  • Active Learning

batch learning 是一种常见的类型。batch learning获得的训练数据D是一批的,即一次性拿到整个D,对其进行学习建模,得到我们最终的机器学习模型。batch learning在实际应用中最为广泛。
online 是一种在线学习模型,数据是实时更新的,根据数据一个个进来,同步更新我们的算法。比如在线邮件过滤系统,根据一封一封邮件的内容,根据当前算法判断是否为垃圾邮件,再根据用户反馈,及时更新当前算法。这是一个动态的过程。之前我们介绍的PLA和增强学习都可以使用online模型。
active learning 是近些年来新出现的一种机器学习类型,即让机器具备主动问问题的能力,例如手写数字识别,机器自己生成一个数字或者对它不确定的手写字主动提问。
active learning 优势之一是在获取样本label比较困难的时候,可以节约时间和成本,只对一些重要的label提出需求。
简单总结一下,按照不同的协议,机器学习可以分为batch, online, active。这三种学习类型分别可以类比为:填鸭式,老师教学以及主动问问题。

1.1.4 输入数据划分

根据输入X类型不同,可以分为 concetet, raw,abstract。即具体特征、简单特征转换、抽象特征转换。

输入X的第一种类型就是 concrete features。比如说硬币分类问题中硬币的尺寸、重量等;比如疾病诊断中的病人信息等具体特征。concrete features 对机器学习来说最容易理解和使用。

第二种类型是raw features。比如说手写数字识别中每个数字所在图片的mxn维像素值;比如语音信号的频谱等。raw features一般比较抽象,经常需要人或者机器来转换为其对应的 concrete features,这个转换的过程就是 Feature Transform。

第三种类型是abstract features。比如某购物网站做购买预测时,提供给参赛者的是抽象加密过的资料编号或者 ID,这些特征 X 完全是抽象的,没有实际的物理含义。所以,对于机器学习来说是比较困难的,需要对特征进行更多的转换和提取。

求点赞转发

目录
相关文章
|
22天前
|
机器学习/深度学习 人工智能 自然语言处理
|
22天前
|
机器学习/深度学习 人工智能 异构计算
人工智能平台PAI问题之Tag类型特征等长如何解决
人工智能平台PAI是指阿里云提供的机器学习平台服务,支持建模、训练和部署机器学习模型;本合集将介绍机器学习PAI的功能和操作流程,以及在使用过程中遇到的问题和解决方案。
|
机器学习/深度学习 数据挖掘 数据处理
Python机器学习从入门到高级:手把手教你处理分类型数据(含详细代码)
Python机器学习从入门到高级:手把手教你处理分类型数据(含详细代码)
|
机器学习/深度学习 编解码 监控
机器学习模型可视化类型和工具
什么是模型可视化? 模型可视化提供了模型背后的原因和逻辑,以实现模型的问责和透明度。由于复杂的内部工作原理,机器学习模型被视为黑盒模型。数据科学家提供了一个高精度的模型。在某些情况下,模型无法向公众解释,因为系统可能会被非法侵入。
|
机器学习/深度学习 人工智能 算法
【人工智能】机器学习之Python使用KNN算法进行电影类型预测以及使用KNN算法对鸢尾花进行分类
使用KNN进行电影类型预测: 给定训练样本集合 解题步骤: 1.计算一个新样本与数据集中所有数据的距离 2.按照距离大小进行递增排序 3.选取距离最小的k个样本 4.确定前k个样本所在类别出现的频率,并输出出现频率最高的类别 编写代码,实现对iris数据集的KNN算法分类及预测 要求: (1)数据集划分为测试集占20%; (2)n_neighbors=5; (3)评价模型的准确率; (4)使用模型预测未知种类的鸢尾花。 (待预测数据:X1=[[1.5 , 3 , 5.8 , 2.2], [6.2 , 2.9 , 4.3 , 1.3]]) iris数据集有150组,每组4个数据。
637 1
【人工智能】机器学习之Python使用KNN算法进行电影类型预测以及使用KNN算法对鸢尾花进行分类
|
7天前
|
机器学习/深度学习 算法 TensorFlow
机器学习算法简介:从线性回归到深度学习
【5月更文挑战第30天】本文概述了6种基本机器学习算法:线性回归、逻辑回归、决策树、支持向量机、随机森林和深度学习。通过Python示例代码展示了如何使用Scikit-learn、statsmodels、TensorFlow库进行实现。这些算法在不同场景下各有优势,如线性回归处理连续值,逻辑回归用于二分类,决策树适用于规则提取,支持向量机最大化类别间隔,随机森林集成多个决策树提升性能,而深度学习利用神经网络解决复杂模式识别问题。理解并选择合适算法对提升模型效果至关重要。
169 4
|
2天前
|
机器学习/深度学习 数据采集 算法
基于机器学习的推荐算法构建技术详解
【6月更文挑战第4天】本文详述了构建基于机器学习的推荐算法,特别是协同过滤方法。从用户和物品相似性的角度,解释了用户-用户和物品-物品协同过滤的工作原理。涵盖了数据准备、预处理、特征工程、模型训练、评估优化及结果展示的构建流程。推荐算法在电商、视频和音乐平台广泛应用,未来将受益于大数据和AI技术的进步,提供更智能的推荐服务。
|
4天前
|
机器学习/深度学习 算法 数据采集
构建一个基于机器学习的交易算法
【6月更文挑战第2天】本文探讨了如何构建基于机器学习的交易算法,关键步骤包括数据收集与预处理、特征选择、模型选择与训练、评估与优化,以及回测与实盘交易。挑战涉及数据质量、过拟合与欠拟合、市场变化与模型适应性。通过结合金融知识与机器学习技术,可创建智能交易系统,但需不断更新优化以应对市场动态。
|
6天前
|
机器学习/深度学习 数据采集 存储
【机器学习】K-近邻算法(KNN)全面解析
K-近邻算法(K-Nearest Neighbors, KNN)是一种基于实例的学习方法,属于监督学习范畴。它的工作原理简单直观:给定一个训练数据集,对新的输入实例,KNN算法通过计算其与训练集中每个实例的距离,找出距离最近的K个邻居,然后根据这些邻居的类别(对于分类任务)或值(对于回归任务)来预测新实例的类别或值。KNN因其简单高效和无需训练过程的特点,在众多领域中得到广泛应用,如模式识别、推荐系统、图像分类等。
167 0
|
6天前
|
机器学习/深度学习 算法
探索机器学习中的支持向量机(SVM)算法
【5月更文挑战第31天】 在数据科学的广阔天地中,支持向量机(SVM)以其卓越的性能和强大的理论基础脱颖而出。本文将深入剖析SVM的工作原理、核心概念以及实际应用,旨在为读者提供一个清晰的理解视角,并通过实例演示其在分类问题中的有效性。我们将从线性可分的情况出发,逐步过渡到非线性问题的处理方法,并探讨如何通过调整参数来优化模型的性能。
241 0