机器为什么能学习

简介: 一、为何机器可以学习?二、举例三、机器学习跟数据挖掘的关系四、总结

机器为什么能学习

 

内容介绍:

一、为何机器可以学习?

二、举例

三、机器学习跟数据挖掘的关系

四、总结

 

 

一、为何机器可以学习?

image.png

为什么机器可以学习?数学上到底是一个什么样的东西?


例:现在有一个玻璃瓶里面放了很多玻璃小玻璃球,这个瓶子很大,里面很多两种颜色的,一个是橙色,一个是绿色的,去判定里面橙色玻璃球的比率,不可能在玻璃瓶里面数,虽然数出来的概率是合理的,但是做不到,所以经常的一种做法就是去采样,比如拿一千出来去看其中橙色的比例,这是经常的做法

 

通过概率学上,只要采样的足够多,未知的这样一个橙色玻璃珠的概率,是非常等同于采样出来的样本里面橙玻璃珠的概率,在概率学上是霍夫丁不等式来保证它们接近的,近似相等的,称之为pac 理论,通过 pac 理论,知道通过采样的方式可以学的,那么把这样一个玻璃球里面橙色玻璃柱的概率跟机器学习可以等价起来。

image.png

bin

unknown orange prob.μ

marble bin

orange

green

size-N sample from bin of ii.d. marbles

learning

fixed hypothesis hximage.pngtarget  fx

x X

h is wrong ⟺ hx)≠fx

h is right⟺ hx=fx

Check h on d={(xn,yn)} with i.i.d.xn

if large N& i.i.d.xn,can probably infer unknown [h(x) f(x)] probability

by known [h(xn) yn] fraction

 

机器学习里面的learning 问题非常接近, learning 要求一个东西,未知的f(x),希望去求h(x)非常相等,就等价于不知道,可以把它理解成是玻璃瓶里面的橙色的玻璃珠的概率,采用了一些玻璃球,就等同于现在拥有一批数据,然后通过数据,知道有哪些东西是对的,哪些是不对的,在这批数据上看一下h错误的概率大概是多少,通过独立统分布,通过前面的 hypothesis 的不等式,当一个样本量非常大的时候,并且是独立同分布的时候,从概率上就可以推出来,通过在样本上学到的h(x)等价于未知的f(x)这就是机器为什么可以学习的一个直观解释。

 

 

二、举例

1General Algorithm Families

(1)Empiricalrik minization(ERM): h=argmin R(h)H

(2)Structuralrisk minimization(SRM):h= argmin R(h)hH+capacty(Hn,m)

(3)Regularization-based algorithms:h=argmin R(h)H+C||h||²

image.png

在样本上求解,把它称之为是经验风险最小化ERM,会有系列问题,所以在后面加上一个东西叫做结构风险最小化,表现形式就是加增则项,通过去惩罚模型里面的东西,这样一个算法能够尽可能简单,通过这样的方式叫做结构风险最小化。

 

2Empirical Risk Minimization

1Select hypothesis set H.

2Find hypothesis h minimizing empirical error:

3Underftting: model not complexenough to fit dat

4Overftting:model too complex, matches training sample

5cannot generalize on test example

image.png

经验风险最小化的做法就是去选择检测机,然后在这样一些经验的数据上,在获取数量上最小化个错误。这个中间就会存在一些问题,比如什么是欠拟合欠拟合这个模型不够复杂,都没有办法去很好的去拟合现在收集出来的这批样本,过拟合的模型太复杂, 在收集的样本上每个点都拟合的非常的好,但是它的推广能力非常差。

image.png

一个具体的例子,中间这个可以看到是拟合的非常好,通过这个房间大小和房子的估值得到一些数据,中间明显可以看出来是一个二的形状状,左边的那幅图很明显可以看得出来,用移结的方式画一条直线,拟合是相对比较差一点。


最右边的这幅图它在每个点上都拟合的非常好,很明显可以看出来东西太过于复杂,也违背数据本身的属性,所以它称为过拟合

 

 

三、机器学习跟数据挖掘的关系

1Machine Learning

use data to compute hypothesis g that approximates target f

2Data Mining

use(huge) data to find property that is interesting

if 'interesting property' same as "hypothesis that approximate

target'

ML = DM (usually what KDDCup does)

if 'interesting property' related to 'hypothesis that approximate target'

DM can help ML, and vice versa (often, but not always)

traditional DM also focuses on efficient computation in large

database

difficult to distinguish ML and DM in reality

image.png

其实它们俩非常像,在很多场景下这个模型能力是近似等价于机器学习的,这里举了两个概念就是机器学习通过用一些经验的数据去得到一个积,希望这个积跟未知的f是非常的近似,数据挖掘它可能更多的是希望从一个很大的数据里面能找到一些比较有用的属性,这个是它概念上的东西,这两个东西在很多程度上是几乎是等价的。

 

 

四、总结

1Mini Summary

1What is Machine Learning?use data to approximate targe

2Applications of Machine Learning: almost everywhere

3Components of Machine Learning learning algorithm take Data and hypothesis set to get final hypothesis

4Scenarios: supervised/unsupervised/reinforcement  

5Areas: classification/regression/ranking/clustering...

image.png

什么是机器学习?

再强调一下,用一些数据去近似目标去近似找到那个f,应用的东西涉及到生活中的方方面面,它的一些经典场景,包括监督、非监督、强化学习等等,它应用的领域,比如分类、回归、排序、聚类等非常多领域,它去近似这样一个未知的函数的时候。

 

2Mini Summary(Cont.)

Different Error Function:0/1 loss, square err, cross-entropy..

A lot of Regularizer: Ll, L2,.

VC Dimension: not mentioned

Probability tools: not mentioned

它有一定的 performance 定义,0/1 loss等选择方法非常多,经验风险最小化里面的结构化的风险,会加上一些政策去惩罚这样一个模型,希望使这个模型能够既简单又高效,推广能力又好,所以会有大量规则像L1,L2等等。

 

相关文章
|
7月前
|
自然语言处理 自动驾驶 机器人
机器自动话
机器自动话
60 1
|
4月前
|
调度
项目环境测试问题之单机调度会导致项目环境大部分的机器被闲置如何解决
项目环境测试问题之单机调度会导致项目环境大部分的机器被闲置如何解决
|
7月前
|
机器学习/深度学习 存储 数据可视化
【学习打卡02】可解释机器学习笔记之ZFNet
【学习打卡02】可解释机器学习笔记之ZFNet
|
存储 计算机视觉
机器看世界(二)
机器看世界(二)
109 0
机器看世界(二)
1266:【例9.10】机器分配 2021-01-15
1266:【例9.10】机器分配 2021-01-15
|
机器学习/深度学习 数据采集 算法
机器学习笔记
机器学习笔记
|
机器学习/深度学习 人工智能 监控
机器看世界(一)
机器看世界(一)
113 0
|
机器学习/深度学习 算法 数据挖掘
机器为什么能学习|学习笔记
快速学习机器为什么能学习。
机器为什么能学习|学习笔记
|
机器学习/深度学习 人工智能 自然语言处理
机器阅读理解 VS 机器问题生成
机器阅读理解 VS 机器问题生成
|
数据库
LeetCode(数据库)- 每台机器的进程平均运行时间
LeetCode(数据库)- 每台机器的进程平均运行时间
600 0
LeetCode(数据库)- 每台机器的进程平均运行时间