机器学习(三)基本概念强化

简介: 机器学习(三)基本概念强化

1.6.2机器学习数据集基本概念强化

下面是西瓜数据集,可以通过西瓜的色泽、根蒂、敲声确定一个西瓜是好瓜或坏瓜 :

要进行机器学习,先要有数据。假定我们收集了一批关于西瓜的数据:

{颜色=乌黑,敲声=浊响}

{颜色=青绿,敲声=清脆}

基础概念1】将这组记录的集合称为一个“数据集”(data set),其中每条记录是关于一个事件或对象(这里说的是西瓜)的描述,也称为一个“样本”(sample)。

基础概念2】而我们所说的西瓜的色泽,这种可以反应事件或对象在某方面的表现或性质的事项,称为“特征”(feature)或“属性”(attribute)”

属性上的取值,如色泽青绿等,这个取值称为属性值(attribute value)。

基础概念3】属性构成的空间称为“属性空间”或样本空间(sample space)或输入空间。比如将西瓜的颜色,敲声作为两个坐标轴,则它们可以张成一个用于描述西瓜的二维空间,每个西瓜都可以在这个空间中找到自己的坐标位置。由于空间中的每个点都对应一个坐标向量,因此我们也把一个样本称作一个“特征向量”(feature vector)。

假设是西瓜数据集的第i个样本,其中在第j个属性上的取值,如第3个西瓜在第1个属性(颜色)上取值为“乌黑”。d称为样本的“维度数或维数”(dimensionality)。数据集D中的表示第i个样本或示例。

基础概念4】从数据中学得模型得过程称为“学习”(learning)或训练(training),这个过程是通过执行某个学习算法来完成的。训练过程中使用的数据称为“训练数据”(training set)。

***训练数据:***由输入X与输出Y对组成。训练集在数学上表示为:

基础概念5模型有时也称为“学习器”(learner),可以看作是学习算法在给定数据和参数空间上的实例化。

基础概念6】如果希望学得一个能帮助我们判断西瓜是不是“好瓜”的模型,仅仅有前面的样本数据是不够的,要建立这样的关于“预测(prediction)”的模型,我们需要获得训练样本的“结果”信息,如:{(颜色=青绿,敲声=浊响),好瓜}。这里的结果信息,称为样本的“标记(label)”;拥有了标记信息的样本,则称为“样例(example)”。用表示第i个样例,yi是样本x的标识,一般把标记的集合称为标记空间(label space)或输出空间。

学习完模型后,就需要进行预测,预测的过程称为“测试”(testing),被预测的样本称为“测试样本”(testing sample)。

***测试数据:***也是由输入X与输出Y组成,是用于测试训练好的模型对于新数据的预测能力。例如在中学阶段的函数可表示为y=f(x),这里的f指的是通过学习得到的模型,对于测试x,可得到其预测标记y=f(x)。

有了上面基本概念铺垫,我们可以学习机器学习的三种不同方法

1.6.3电商数据集基本概念强化

首先,通过电商购买数据集了解机器学习数据集的构成:其中每一个用户都由age年龄、income收入、student是否为学生、credit_rating信用级别和buy_computer是否购买电脑组成。

如果通过机器识别用户是否购买电脑,需要将数据集中各字段进行数字化:

数据集的描述:

目录
相关文章
|
11月前
|
机器学习/深度学习 人工智能 供应链
从概念到商业价值:AI、机器学习与深度学习全景指南
在这个科技飞速发展的时代🚀,人工智能正以惊人的速度渗透到我们的生活和工作中👀。但面对铺天盖地的AI术语和概念,很多人感到困惑不已😣。"AI"、"机器学习"、"深度学习"和"神经网络"到底有什么区别?它们如何相互关联?如何利用这些技术提升工作效率和创造价值?
583 0
|
机器学习/深度学习 资源调度 算法
机器学习领域必知数学符号与概念(一)
本文介绍了一些数学符号以及这些符号的含义。
1090 65
|
机器学习/深度学习 自然语言处理 JavaScript
信息论、机器学习的核心概念:熵、KL散度、JS散度和Renyi散度的深度解析及应用
在信息论、机器学习和统计学领域中,KL散度(Kullback-Leibler散度)是量化概率分布差异的关键概念。本文深入探讨了KL散度及其相关概念,包括Jensen-Shannon散度和Renyi散度。KL散度用于衡量两个概率分布之间的差异,而Jensen-Shannon散度则提供了一种对称的度量方式。Renyi散度通过可调参数α,提供了更灵活的散度度量。这些概念不仅在理论研究中至关重要,在实际应用中也广泛用于数据压缩、变分自编码器、强化学习等领域。通过分析电子商务中的数据漂移实例,展示了这些散度指标在捕捉数据分布变化方面的独特优势,为企业提供了数据驱动的决策支持。
2043 2
信息论、机器学习的核心概念:熵、KL散度、JS散度和Renyi散度的深度解析及应用
|
机器学习/深度学习 传感器 算法
机器学习入门(一):机器学习分类 | 监督学习 强化学习概念
机器学习入门(一):机器学习分类 | 监督学习 强化学习概念
|
机器学习/深度学习 算法 搜索推荐
【机器学习】机器学习的基本概念、算法的工作原理、实际应用案例
机器学习是人工智能的一个分支,它使计算机能够在没有明确编程的情况下从数据中学习并改进其性能。机器学习的目标是让计算机自动学习模式和规律,从而能够对未知数据做出预测或决策。
1613 2
|
机器学习/深度学习 人工智能 算法
【人工智能】机器学习、分类问题和逻辑回归的基本概念、步骤、特点以及多分类问题的处理方法
机器学习是人工智能的一个核心分支,它专注于开发算法,使计算机系统能够自动地从数据中学习并改进其性能,而无需进行明确的编程。这些算法能够识别数据中的模式,并利用这些模式来做出预测或决策。机器学习的主要应用领域包括自然语言处理、计算机视觉、推荐系统、金融预测、医疗诊断等。
663 1
|
机器学习/深度学习 算法
【机器学习】解释对偶的概念及SVM中的对偶算法?(面试回答)
解释了对偶的概念,指出对偶性在优化问题中的重要性,尤其是在强对偶性成立时可以提供主问题的最优下界,并且详细阐述了支持向量机(SVM)中对偶算法的应用,包括如何将原始的最大间隔优化问题转换为对偶问题来求解。
562 2
|
机器学习/深度学习
【机器学习】准确率、精确率、召回率、误报率、漏报率概念及公式
机器学习评估指标中的准确率、精确率、召回率、误报率和漏报率等概念,并给出了这些指标的计算公式。
4307 0
|
机器学习/深度学习 人工智能 自然语言处理
机器学习之深度学习算法概念
深度学习算法是一类基于人工神经网络的机器学习方法,其核心思想是通过多层次的非线性变换,从数据中学习表示层次特征,从而实现对复杂模式的建模和学习。深度学习算法在图像识别、语音识别、自然语言处理等领域取得了巨大的成功,成为人工智能领域的重要技术之一。
430 3
|
机器学习/深度学习 人工智能 算法
【机器学习】深度探索:从基础概念到深度学习关键技术的全面解析——梯度下降、激活函数、正则化与批量归一化
【机器学习】深度探索:从基础概念到深度学习关键技术的全面解析——梯度下降、激活函数、正则化与批量归一化
427 3