机器学习的基本概念-1| 学习笔记

简介: 快速学习机器学习的基本概念-1。

开发者学堂课程【机器学习算法 :机器学习的基本概念-1】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/535/detail/7166


机器学习的基本概念-1

 

内容介绍

一、机器学习的方法流程

二、输出空间与输入空间

三、特征空间

 

一、机器学习的方法流程

1、以监督学习方法为例:实现提供以知结果样本,按照样本学习,建立模型,也可以理解为照例题写新题。

我们拿到的数据是有结论的,根据有结果的数据构建模型,再将模型运用到新的模型上。

模型:在脑子里已经形成结论。可能是公式,图谱。

2、监督学习的流程

(1)输入数据(有结果的样本数据。对特征加工整理)

(2)特征工程(基于数据建立特征。也称为特征。在输入数据的基础上做了加工,拓展,合并,形成新的特征。特征可能和输入的数据一致。也可以改变)

(3)模型训练(既定的公式。建模的过程是反复的过程。)

(4)模型部署(建模成功之后你进行模型的部署,形成产品的公式。)

(5)模型应用

图片1.png

实际上许多业务都是动态变化的,数据也在动态变化。有可能模型的数据周期是有限的。需要定期去更新模型。就是最后一条线。在使用过程中,定时去做模型的升级管理。更新以及重新建模。

 

二、输出空间与输入空间

1、输入空间(Input Space):将输入的所有可能取值的集合称作输入空间。

2、输出空间(Output Space):将输出的所有可能取值的集合称作输出空间。

例如:

采集了一些父子的身,对这些数据进行建模,然后使用模型根据输入的父亲的身高去预测其子身高的取值。

图片2.png

父亲的身高就是输入的特征,父亲身高所有的取值就叫做输入空间。(是一个连续的一个值)儿子的身高就是输出值,所有的取值就是输出空间。

搜集了泰坦尼克号上乘客的相关信息,对这些数据进行建模,使用模型去预测某个乘客是否能够生还。

图片3.png

收集了乘客的信息,以及存活状况。通过此建立生还的模型。不具备普适性。

Survived 存活的状况,这个是最后的实际输出空间,实际空间只有两个指标,一个是生还,一个是遇难。除了这个以外都是输入空间。输入空间不是一维的,是有许多维度构成的。

(1)输入空间和输出空间可以是有限元素的集合,也可以是整个欧氏空间

(2)输入空间和输出空间可以是连续值集合(身高),也可以是离散值集合(分类)

(3)输入空间和输出空间可以是同一个空间,也可以是不同空间

(4)通常输出空间会比输入空间小

 

三、特征空间

1、特征(Feature):即属性。每个输入实例(每一条输入的记录)的各个组成部分(属性)称作原始特征,基于原始特征还可以扩展出更多的衍生特征。

2、特征向量( Feature Vector):由多个特征组成的集合,称作特征向量。

3、特征空间 ( Feature Space ):将特征向量存在的空间称作特征空间。

例如:

图片4.png

特征:父亲身高 165

特征向量:一维,(165)

图片5.png

除了 survived 以外其他所有的输入实例的属性。

特征:Passengerld, Pclass,Name,Sex,Age, SibSp,Parch, Ticket,Fare, Cabin, Embarked

特征向量:十一维,(1,3,'Braund,Mr. Owen Harris", "male",22,1,0,"A/5 21171",7.25,"- "S")

特征空间:sex和age的所有值。

Fare 是一个连续的值,是原始特征。在做分析时要定义到 C-level 上。在建模时可能不会使用原始的价钱,使用做过离散化的值。

特征:Sex="male",Age=22,C level=“L”

特征向量:三维,('male",22," L” ), ( “female",38,” H”)

(1)特征空间中每一维都对应了一个特征(属性)

(2)特征空间可以和输入空间相同,也可以不同

(3)需将将实例从输入空间映射到特征空间,通过固定的变化规则从一个空间映射到另一个空间。

(4)模型实际上是定义于特征空间之上的

相关文章
|
6月前
|
机器学习/深度学习 人工智能 算法
详解机器学习概念、算法
详解机器学习概念、算法
详解机器学习概念、算法
|
1月前
|
机器学习/深度学习 自然语言处理 JavaScript
信息论、机器学习的核心概念:熵、KL散度、JS散度和Renyi散度的深度解析及应用
在信息论、机器学习和统计学领域中,KL散度(Kullback-Leibler散度)是量化概率分布差异的关键概念。本文深入探讨了KL散度及其相关概念,包括Jensen-Shannon散度和Renyi散度。KL散度用于衡量两个概率分布之间的差异,而Jensen-Shannon散度则提供了一种对称的度量方式。Renyi散度通过可调参数α,提供了更灵活的散度度量。这些概念不仅在理论研究中至关重要,在实际应用中也广泛用于数据压缩、变分自编码器、强化学习等领域。通过分析电子商务中的数据漂移实例,展示了这些散度指标在捕捉数据分布变化方面的独特优势,为企业提供了数据驱动的决策支持。
53 2
信息论、机器学习的核心概念:熵、KL散度、JS散度和Renyi散度的深度解析及应用
|
1月前
|
机器学习/深度学习 传感器 算法
机器学习入门(一):机器学习分类 | 监督学习 强化学习概念
机器学习入门(一):机器学习分类 | 监督学习 强化学习概念
|
6月前
|
机器学习/深度学习 自然语言处理 算法
|
3月前
|
机器学习/深度学习 算法 搜索推荐
【机器学习】机器学习的基本概念、算法的工作原理、实际应用案例
机器学习是人工智能的一个分支,它使计算机能够在没有明确编程的情况下从数据中学习并改进其性能。机器学习的目标是让计算机自动学习模式和规律,从而能够对未知数据做出预测或决策。
87 2
|
3月前
|
机器学习/深度学习 人工智能 算法
【人工智能】机器学习、分类问题和逻辑回归的基本概念、步骤、特点以及多分类问题的处理方法
机器学习是人工智能的一个核心分支,它专注于开发算法,使计算机系统能够自动地从数据中学习并改进其性能,而无需进行明确的编程。这些算法能够识别数据中的模式,并利用这些模式来做出预测或决策。机器学习的主要应用领域包括自然语言处理、计算机视觉、推荐系统、金融预测、医疗诊断等。
61 1
|
3月前
|
机器学习/深度学习 算法
【机器学习】解释对偶的概念及SVM中的对偶算法?(面试回答)
解释了对偶的概念,指出对偶性在优化问题中的重要性,尤其是在强对偶性成立时可以提供主问题的最优下界,并且详细阐述了支持向量机(SVM)中对偶算法的应用,包括如何将原始的最大间隔优化问题转换为对偶问题来求解。
77 2
|
3月前
|
机器学习/深度学习
【机器学习】准确率、精确率、召回率、误报率、漏报率概念及公式
机器学习评估指标中的准确率、精确率、召回率、误报率和漏报率等概念,并给出了这些指标的计算公式。
532 0
|
3月前
|
机器学习/深度学习 算法 搜索推荐
【机器学习】凸集、凸函数、凸优化、凸优化问题、非凸优化问题概念详解
本文解释了凸集、凸函数、凸优化以及非凸优化的概念,并探讨了它们在机器学习中的应用,包括如何将非凸问题转化为凸问题的方法和技术。
216 0
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
机器学习之深度学习算法概念
深度学习算法是一类基于人工神经网络的机器学习方法,其核心思想是通过多层次的非线性变换,从数据中学习表示层次特征,从而实现对复杂模式的建模和学习。深度学习算法在图像识别、语音识别、自然语言处理等领域取得了巨大的成功,成为人工智能领域的重要技术之一。
88 3
下一篇
无影云桌面