【引言】浙大机器学习课程记录

简介: 【引言】浙大机器学习课程记录

机器学习的定义


第一种定义


ARTHUR SAMUEL对Machine learning 的定义


Machine Learning is Fields of study that gives computers the ability to learn without being explicitly programmed

机器学习是这样的领域,它赋予计算机学习的能力,(这种学历能力)不是通过显著式编程获得的


  • 显著式编程

提前人为指定规律的编程方式

  • 非显著式编程

让计算机自己总结规律的编程方式

Arthur Samuel 所定义的机器学习是专指这种非显著式编程的方式


非显著式编程方式的做法:


我们规定了行为和收益函数后,让计算机自己去找最大化收益函数的行为


让计算机通过数据、经验自动的学习。


第二种定义


来自于1998年 Tom Mistshell 在《MACHINE LEARNING》书中给出的定义


A computer program is said to learn from experience E with respect to some task T and some performance measurc P, if its performance on T, as measured by P , improves with experience E

一个计算机程序被称为可以学习,是指它能够针对某个任务 T 和某个性能指标 P,从经验 E 中学习。这种学习的特点是,它在 T 上的被 P 所衡量的性能,会随着经验 E 的增加而提高。


据 Tom Mitshell 的定义,机器学习为为识别不同任务而改造某种算法


这种算法的特点:


随着 Experience 的增多,Performance Measure 也会提高


这种算法的具体体现:

image.png


image.pngimage.pngimage.png

据经验 E 来提高性能指标 P 的过程,为典型的最优化问题



机器学习的分类


按照任务性质的不同进行分类为:

  • 监督学习
  • 强化学习

         计算机通过与环境的互动逐渐强化自己的行为模式

但不绝对

 

这里主要介绍了监督学习

监督学习


(1)监督学习根据数据标签存在与否分类为:


  • 传统监督学习(Traditional Supervised Learning)
  • 非监督学习(Unsupervised Learning)
  • 半监督学习(Semi-supervised Learning)

(2)基于标签的固有属性,按照标签是连续还是离散分类为:


  • 分类问题
  • 回归问题


基于标签存在分类


传统监督学习

Traditional Supervised Learning 中每一个训练数据都有对应的标签


算法包括


  • 支持向量机 (SUPPORT VECTOR MACHINE)
  • 人工神经网络(NEURAL NETWORKS)
  • 深度神经网络(Deep Neural Networks)


非监督学习


Unsupervised Learning 中所有的训练数据都没有对应的标签


在Traditional Supervised Learning中的数据可能有像:X 代表一类,圆形代表另一类,但在 Unsupervised Learning 中可能如下图:

1.png



尽管我们不知道训练数据的类别标签,但我们可以这样处理:

image.png

算法包括


  • 聚类(Clustering)
  • EM 算法(Expectation–Maximizationg algorithm)
  • 主成分分析(Principle Component Analysis)


半监督学习

Semi-supervised Learning 中训练数据中有一部分有标签,一部分没有标签


在大量的数据面前,数据标注是成本巨大的工作


所以我们需要:


少量的标注数据 + 大量未标注数据 训练一个更好的机器学习算法


例如下图:

2.png



在左边,如果只有两个标注过的训练样本,那么便不好进行分类;如果像右图增加没有标签的训练样本,那么可能设计算法就能实现更准确的分类。


基标签固有属性分类


分类和回归的分别是十分模糊的,因为离散和连续的区别也是模糊的。


我们主要研究机器学习模型解决分类问题。


分类

Classifcation:标签是离散的值


例如人脸识别为分类问题


如图:

a6f9bed9e79a9bae7c6ac7e8f92e699a.png


模式一为双人脸比对,模式二为人群中单人脸匹配。


回归


Regression:标签是连续的值


例如:预测股票价格、预测温度、预测人的年龄等任务



机器学习算法的过程

image.png


image.png

特征提取(Feature Extraction):


通过训练样本获得的,对机器学习任务有帮助的多维度数据。


机器学习的重点应该是:


假设在已经提取好的特征的前提下,如何构造算法获得更好的性能


当然好的特征是能构造出好算法的前提,特征越好算法结果越好


我们需要研究不同应用场景下应该采取哪种算法,甚至研究新的机器学习算法以便适应新的场景



没有免费午餐定理


1995年,D. H. Wolpert 等人提出:


没有免费午餐定理(No Free Lunch Theorem)


任何一个预测函数,如果在一些训练样本上表现好,那么必然在另一些训练样本上表现不好,如果不对数据在特征空间的先验分布上有一定假设,那么表现好与表现不好的情况一样多。


在设计机器学习算法的时候有一个假设:


在特征空间上距离接近的样本,他们属于同一类别的概率会更高,但是并不绝对,是有可能出错的


如果不对特征空间的先验分布有假设,那么所有算法的表现都一样


机器学习本质:


通过有限的已知数据基础,在复杂的高维特征空间中预测未知的样本


没有放之四海而皆为准的最好算法,因为评价算法的好坏涉及特征空间先验分布的假设



测试

f9bdcdd32dc5791f9fc17040cd7dfc22.png


目录
相关文章
|
4月前
|
机器学习/深度学习 供应链 算法
机器学习课程学习随笔
机器学习课程学习随笔
|
机器学习/深度学习 算法 知识图谱
cs224w(图机器学习)2021冬季课程学习笔记12 Knowledge Graph Embeddings
cs224w(图机器学习)2021冬季课程学习笔记12 Knowledge Graph Embeddings
cs224w(图机器学习)2021冬季课程学习笔记12 Knowledge Graph Embeddings
|
2月前
|
机器学习/深度学习
Coursera 吴恩达Machine Learning(机器学习)课程 |第五周测验答案(仅供参考)
Coursera 吴恩达Machine Learning(机器学习)课程 |第五周测验答案(仅供参考)
|
机器学习/深度学习 并行计算 数据可视化
cs224w(图机器学习)2021冬季课程学习笔记13 Colab 3
本colab主要实现: 实现GraphSAGE和GAT模型,应用在Cora数据集上。 使用DeepSNAP包切分图数据集、实现数据集转换,完成边属性预测(链接预测)任务。
cs224w(图机器学习)2021冬季课程学习笔记13 Colab 3
|
机器学习/深度学习 存储 算法
python机器学习课程——决策树全网最详解超详细笔记附代码
决策树算法是一种逼近离散函数值的方法。它是一种典型的分类方法,首先对数据进行处理,利用归纳算法生成可读的规则和决策树,然后使用决策对新数据进行分析。本质上决策树是通过一系列规则对数据进行分类的过程。决策树方法最早产生于上世纪60年代,到70年代末。由J Ross Quinlan提出了ID3算法,此算法的目的在于减少树的深度。但是忽略了叶子数目的研究。C4.5算法在ID3算法的基础上进行了改进,对于预测变量的缺值处理、剪枝技术、派生规则等方面作了较大改进,既适合于分类问题,又适合于回归问题。决策树算法构造决策
285 0
|
机器学习/深度学习 分布式计算 关系型数据库
直播预告 | pg4ml 机器学习框架系列课程:实现细节、XOR 模型案例(上)
pg4ml 机器学习框架是基于 PostgreSQL v13 实现的、使用 plpgsql 编写的机器学习框架,本次讲解的实验环境基于PolarDB-PG开源数据库。本次分享主要介绍框架的实现细节,并构建XOR两层网络的模型案例,包括数据集、XOR分类的案例与原理、神经网络节点、训练任务结构与执行等内容。
直播预告 |  pg4ml 机器学习框架系列课程:实现细节、XOR 模型案例(上)
|
机器学习/深度学习 算法 搜索推荐
花了2个晚上,拿到了吴恩达@斯坦福大学的机器学习课程证书
花了2个晚上,拿到了吴恩达@斯坦福大学的机器学习课程证书
花了2个晚上,拿到了吴恩达@斯坦福大学的机器学习课程证书
|
机器学习/深度学习 人工智能 自然语言处理
全球名校AI课程库(20)| Stanford斯坦福 · 图机器学习课程『Machine Learning with Graphs』
课程对于graph方向的数据挖掘、机器学习(神经网络)有全面的知识覆盖。如果想学习非结构化的图数据上的各类算法,这是最权威的课程之一。
2258 1
全球名校AI课程库(20)| Stanford斯坦福 · 图机器学习课程『Machine Learning with Graphs』
|
机器学习/深度学习 人工智能 自然语言处理
全球名校AI课程库(13)| CMU卡内基梅隆 · 多模态机器学习课程『Multimodal Machine Learning』
课程以多模态(MMML)为主题,讲解基本概念、多种数据形态联合建模方法,并回顾近期MMML概率模型和计算算法的论文,讨论当前面临的挑战。
2304 1
全球名校AI课程库(13)| CMU卡内基梅隆 · 多模态机器学习课程『Multimodal Machine Learning』
|
机器学习/深度学习 自然语言处理 搜索推荐
cs224w(图机器学习)2021冬季课程学习笔记20 Advanced Topics on GNNs
本章主要内容: 本章首先介绍了在此之前学习的message passing系GNN模型的限制,然后介绍了position-aware GNN1 和 identity-aware GNN (IDGNN)2 来解决相应的问题。 最后介绍了GNN模型的鲁棒性问题。
cs224w(图机器学习)2021冬季课程学习笔记20 Advanced Topics on GNNs