【引言】浙大机器学习课程记录

简介: 【引言】浙大机器学习课程记录

机器学习的定义


第一种定义


ARTHUR SAMUEL对Machine learning 的定义


Machine Learning is Fields of study that gives computers the ability to learn without being explicitly programmed

机器学习是这样的领域,它赋予计算机学习的能力,(这种学历能力)不是通过显著式编程获得的


  • 显著式编程

提前人为指定规律的编程方式

  • 非显著式编程

让计算机自己总结规律的编程方式

Arthur Samuel 所定义的机器学习是专指这种非显著式编程的方式


非显著式编程方式的做法:


我们规定了行为和收益函数后,让计算机自己去找最大化收益函数的行为


让计算机通过数据、经验自动的学习。


第二种定义


来自于1998年 Tom Mistshell 在《MACHINE LEARNING》书中给出的定义


A computer program is said to learn from experience E with respect to some task T and some performance measurc P, if its performance on T, as measured by P , improves with experience E

一个计算机程序被称为可以学习,是指它能够针对某个任务 T 和某个性能指标 P,从经验 E 中学习。这种学习的特点是,它在 T 上的被 P 所衡量的性能,会随着经验 E 的增加而提高。


据 Tom Mitshell 的定义,机器学习为为识别不同任务而改造某种算法


这种算法的特点:


随着 Experience 的增多,Performance Measure 也会提高


这种算法的具体体现:

image.png


image.pngimage.pngimage.png

据经验 E 来提高性能指标 P 的过程,为典型的最优化问题



机器学习的分类


按照任务性质的不同进行分类为:

  • 监督学习
  • 强化学习

         计算机通过与环境的互动逐渐强化自己的行为模式

但不绝对

 

这里主要介绍了监督学习

监督学习


(1)监督学习根据数据标签存在与否分类为:


  • 传统监督学习(Traditional Supervised Learning)
  • 非监督学习(Unsupervised Learning)
  • 半监督学习(Semi-supervised Learning)

(2)基于标签的固有属性,按照标签是连续还是离散分类为:


  • 分类问题
  • 回归问题


基于标签存在分类


传统监督学习

Traditional Supervised Learning 中每一个训练数据都有对应的标签


算法包括


  • 支持向量机 (SUPPORT VECTOR MACHINE)
  • 人工神经网络(NEURAL NETWORKS)
  • 深度神经网络(Deep Neural Networks)


非监督学习


Unsupervised Learning 中所有的训练数据都没有对应的标签


在Traditional Supervised Learning中的数据可能有像:X 代表一类,圆形代表另一类,但在 Unsupervised Learning 中可能如下图:

1.png



尽管我们不知道训练数据的类别标签,但我们可以这样处理:

image.png

算法包括


  • 聚类(Clustering)
  • EM 算法(Expectation–Maximizationg algorithm)
  • 主成分分析(Principle Component Analysis)


半监督学习

Semi-supervised Learning 中训练数据中有一部分有标签,一部分没有标签


在大量的数据面前,数据标注是成本巨大的工作


所以我们需要:


少量的标注数据 + 大量未标注数据 训练一个更好的机器学习算法


例如下图:

2.png



在左边,如果只有两个标注过的训练样本,那么便不好进行分类;如果像右图增加没有标签的训练样本,那么可能设计算法就能实现更准确的分类。


基标签固有属性分类


分类和回归的分别是十分模糊的,因为离散和连续的区别也是模糊的。


我们主要研究机器学习模型解决分类问题。


分类

Classifcation:标签是离散的值


例如人脸识别为分类问题


如图:

a6f9bed9e79a9bae7c6ac7e8f92e699a.png


模式一为双人脸比对,模式二为人群中单人脸匹配。


回归


Regression:标签是连续的值


例如:预测股票价格、预测温度、预测人的年龄等任务



机器学习算法的过程

image.png


image.png

特征提取(Feature Extraction):


通过训练样本获得的,对机器学习任务有帮助的多维度数据。


机器学习的重点应该是:


假设在已经提取好的特征的前提下,如何构造算法获得更好的性能


当然好的特征是能构造出好算法的前提,特征越好算法结果越好


我们需要研究不同应用场景下应该采取哪种算法,甚至研究新的机器学习算法以便适应新的场景



没有免费午餐定理


1995年,D. H. Wolpert 等人提出:


没有免费午餐定理(No Free Lunch Theorem)


任何一个预测函数,如果在一些训练样本上表现好,那么必然在另一些训练样本上表现不好,如果不对数据在特征空间的先验分布上有一定假设,那么表现好与表现不好的情况一样多。


在设计机器学习算法的时候有一个假设:


在特征空间上距离接近的样本,他们属于同一类别的概率会更高,但是并不绝对,是有可能出错的


如果不对特征空间的先验分布有假设,那么所有算法的表现都一样


机器学习本质:


通过有限的已知数据基础,在复杂的高维特征空间中预测未知的样本


没有放之四海而皆为准的最好算法,因为评价算法的好坏涉及特征空间先验分布的假设



测试

f9bdcdd32dc5791f9fc17040cd7dfc22.png


目录
相关文章
|
8月前
|
机器学习/深度学习 供应链 算法
机器学习课程学习随笔
机器学习课程学习随笔
|
5月前
|
机器学习/深度学习 算法 Python
【绝技揭秘】Andrew Ng 机器学习课程第十周:解锁梯度下降的神秘力量,带你飞速征服数据山峰!
【8月更文挑战第16天】Andrew Ng 的机器学习课程是学习该领域的经典资源。第十周聚焦于优化梯度下降算法以提升效率。课程涵盖不同类型的梯度下降(批量、随机及小批量)及其应用场景,介绍如何选择合适的批量大小和学习率调整策略。还介绍了动量法、RMSProp 和 Adam 优化器等高级技巧,这些方法能有效加速收敛并改善模型性能。通过实践案例展示如何使用 Python 和 NumPy 实现小批量梯度下降。
46 1
|
8月前
|
机器学习/深度学习 监控 算法
LabVIEW使用机器学习分类模型探索基于技能课程的学习
LabVIEW使用机器学习分类模型探索基于技能课程的学习
59 1
|
8月前
|
机器学习/深度学习
Coursera 吴恩达Machine Learning(机器学习)课程 |第五周测验答案(仅供参考)
Coursera 吴恩达Machine Learning(机器学习)课程 |第五周测验答案(仅供参考)
|
机器学习/深度学习 算法 知识图谱
浙大团队将化学知识引入机器学习,提出可外推、可解释的分子图模型预测反应性能
浙大团队将化学知识引入机器学习,提出可外推、可解释的分子图模型预测反应性能
227 0
|
机器学习/深度学习 分布式计算 关系型数据库
直播预告 | pg4ml 机器学习框架系列课程:实现细节、XOR 模型案例(上)
pg4ml 机器学习框架是基于 PostgreSQL v13 实现的、使用 plpgsql 编写的机器学习框架,本次讲解的实验环境基于PolarDB-PG开源数据库。本次分享主要介绍框架的实现细节,并构建XOR两层网络的模型案例,包括数据集、XOR分类的案例与原理、神经网络节点、训练任务结构与执行等内容。
直播预告 |  pg4ml 机器学习框架系列课程:实现细节、XOR 模型案例(上)
|
机器学习/深度学习 存储 算法
python机器学习课程——决策树全网最详解超详细笔记附代码
决策树算法是一种逼近离散函数值的方法。它是一种典型的分类方法,首先对数据进行处理,利用归纳算法生成可读的规则和决策树,然后使用决策对新数据进行分析。本质上决策树是通过一系列规则对数据进行分类的过程。决策树方法最早产生于上世纪60年代,到70年代末。由J Ross Quinlan提出了ID3算法,此算法的目的在于减少树的深度。但是忽略了叶子数目的研究。C4.5算法在ID3算法的基础上进行了改进,对于预测变量的缺值处理、剪枝技术、派生规则等方面作了较大改进,既适合于分类问题,又适合于回归问题。决策树算法构造决策
387 0
|
机器学习/深度学习 人工智能 自然语言处理
全球名校AI课程库(20)| Stanford斯坦福 · 图机器学习课程『Machine Learning with Graphs』
课程对于graph方向的数据挖掘、机器学习(神经网络)有全面的知识覆盖。如果想学习非结构化的图数据上的各类算法,这是最权威的课程之一。
2324 1
全球名校AI课程库(20)| Stanford斯坦福 · 图机器学习课程『Machine Learning with Graphs』
|
机器学习/深度学习 人工智能 自然语言处理
全球名校AI课程库(13)| CMU卡内基梅隆 · 多模态机器学习课程『Multimodal Machine Learning』
课程以多模态(MMML)为主题,讲解基本概念、多种数据形态联合建模方法,并回顾近期MMML概率模型和计算算法的论文,讨论当前面临的挑战。
2395 1
全球名校AI课程库(13)| CMU卡内基梅隆 · 多模态机器学习课程『Multimodal Machine Learning』
|
机器学习/深度学习 算法 搜索推荐
花了2个晚上,拿到了吴恩达@斯坦福大学的机器学习课程证书
花了2个晚上,拿到了吴恩达@斯坦福大学的机器学习课程证书
花了2个晚上,拿到了吴恩达@斯坦福大学的机器学习课程证书