机器为什么能学习
内容介绍:
一、为何机器可以学习?
二、举例
三、机器学习跟数据挖掘的关系
四、总结
一、为何机器可以学习?
为什么机器可以学习?在数学上到底是一个什么样的东西?
例:现在有一个玻璃瓶里面放了很多玻璃小玻璃球,这个瓶子很大,里面很多两种颜色的,一个是橙色,一个是绿色的,去判定里面橙色玻璃球的比率,不可能在玻璃瓶里面数,虽然数出来的概率是合理的,但是做不到,所以经常的一种做法就是去采样,比如拿一千个出来去看其中橙色的比例,这是经常的做法。
通过概率学上,只要采样的足够多,未知的这样一个橙色玻璃珠的概率,是非常等同于采样出来的样本里面橙色玻璃珠的概率,在概率学上是霍夫丁不等式来保证它们俩是接近的,近似相等的,称之为pac 理论,通过 pac 理论,知道通过采样的方式是可以学的,那么把这样一个玻璃球里面橙色玻璃柱的概率跟机器学习可以等价起来。
bin
unknown orange prob.μ
marble∈ bin
orange
green
size-N sample from bin of ii.d. marbles
learning
fixed hypothesis h(x)target f(x)
x∈ X
h is wrong ⟺ h(x)≠f(x)
h is right⟺ h(x)=f(x)
Check h on d={(xn,yn)} with i.i.d.xn
if large N& i.i.d.xn,can probably infer unknown [h(x)≠ f(x)] probability
by known [h(xn)≠ yn] fraction
跟机器学习里面的learning 问题非常接近, learning 上要求一个东西,跟未知的f(x),希望去求h(x)非常相等,就等价于不知道,可以把它理解成是玻璃瓶里面的橙色的玻璃珠的概率,采用了一些玻璃球,就等同于现在拥有一批数据,然后通过数据,知道有哪些东西是对的,哪些是不对的,在这批数据上看一下h错误的概率大概是多少,通过独立统分布,通过前面的 hypothesis 的不等式,当一个样本量非常大的时候,并且是独立同分布的时候,从概率上就可以推出来,通过在样本上学到的h(x)等价于未知的f(x)。这就是机器为什么可以学习的一个直观解释。
二、举例
1、General Algorithm Families
(1)Empiricalrik minization(ERM): h=argmin R(h)∈H
(2)Structuralrisk minimization(SRM):h= argmin R(h)h∈H+capacty(Hn,m)
(3)Regularization-based algorithms:h=argmin R(h)∈H+C||h||²
在样本上求解,把它称之为是经验风险最小化ERM,会有一系列问题,所以在后面加上一个东西叫做结构风险最小化,表现形式就是加增则项,通过去惩罚模型里面的东西,这样一个算法能够尽可能简单,通过这样的方式叫做结构风险最小化。
2、Empirical Risk Minimization
(1)Select hypothesis set H.
(2)Find hypothesis h minimizing empirical error:
(3)Underftting: model not complexenough to fit dat
(4)Overftting:model too complex, matches training sample
(5)cannot generalize on test example
经验风险最小化的做法就是去选择一个检测机,然后在这样一些经验的数据上,在获取的数量上最小化一个错误。这个中间就会存在一些问题,比如什么是欠拟合,欠拟合这个模型不够复杂,都没有办法去很好的去拟合现在收集出来的这批样本,过拟合的模型太复杂, 在收集的样本上每个点都拟合的非常的好,但是它的推广能力非常差。
一个具体的例子,中间这个可以看到是拟合的非常好,通过这个房间大小和房子的估值得到一些数据,中间明显可以看出来是一个二的形状状,左边的那幅图很明显可以看得出来,它用移结的方式画一条直线,拟合是相对比较差一点。
最右边的这幅图它在每个点上都拟合的非常好,很明显可以看出来东西太过于复杂,也违背了数据本身的属性,所以它称为过拟合。
三、机器学习跟数据挖掘的关系
1、Machine Learning
use data to compute hypothesis g that approximates target f
2、Data Mining
use(huge) data to find property that is interesting
if 'interesting property' same as "hypothesis that approximate
target'
ML = DM (usually what KDDCup does)
if 'interesting property' related to 'hypothesis that approximate target'
DM can help ML, and vice versa (often, but not always)
traditional DM also focuses on efficient computation in large
database
difficult to distinguish ML and DM in reality
其实它们俩非常像,在很多场景下这个模型能力是近似等价于机器学习的,这里举了两个概念就是机器学习通过用一些经验的数据去得到一个积,希望这个积跟未知的f是非常的近似,数据挖掘它可能更多的是希望从一个很大的数据里面能找到一些比较有用的属性,这个是它概念上的东西,这两个东西在很多程度上是几乎是等价的。
四、总结
1、Mini Summary
(1)What is Machine Learning?use data to approximate targe
(2)Applications of Machine Learning: almost everywhere
(3)Components of Machine Learning learning algorithm take Data and hypothesis set to get final hypothesis
(4)Scenarios: supervised/unsupervised/reinforcement
(5)Areas: classification/regression/ranking/clustering...
什么是机器学习?
再强调一下,用一些数据去近似目标去近似找到那个f,应用的东西涉及到生活中的方方面面,它的一些经典场景,包括监督、非监督、强化学习等等,它应用的领域,比如分类、回归、排序、聚类等非常多领域,它去近似这样一个未知的函数的时候。
2、Mini Summary(Cont.)
Different Error Function:0/1 loss, square err, cross-entropy..
A lot of Regularizer: Ll, L2,….
VC Dimension: not mentioned
Probability tools: not mentioned
它有一定的 performance 定义,0/1 loss等选择方法非常多,经验风险最小化里面的结构化的风险,会加上一些政策去惩罚这样一个模型,希望使这个模型能够既简单又高效,推广能力又好,所以会有大量规则像L1,L2等等。