01
绪论
1.1
机器学习(Machine Learning)
机器学习是人工智能的一个分支。人工智能的研究历史有着一条从以“推理”为重点,到以“知识”为重点,再到以“学习”为重点的自然、清晰的脉络。显然,机器学习是实现人工智能的一个途径,即以机器学习为手段解决人工智能中的问题。机器学习在近30多年已发展为一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析(英语:Convex analysis)、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。很多推论问题属于无程序可循难度,所以部分的机器学习研究是开发容易处理的近似算法。
机器学习已广泛应用于数据挖掘、计算机视觉、自然语言处理、生物特征识别、搜索引擎、医学诊断、检测信用卡欺诈、证券市场分析、DNA序列测序、语音和手写识别、战略游戏和机器人等领域。
1.1.1
定义
机器学习有下面几种定义:
机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能。
机器学习是对能通过经验自动改进的计算机算法的研究。
机器学习是用数据或以往的经验,以此优化计算机程序的性能标准。
英文定义:A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E.
1.1.2
分类
监督学习
无监督学习
半监督学习
1.2
监督学习(Supervised Learning)
例1.
波特兰俄勒冈州的研究所收集了一些房价的数据。把这些数据画出来,看起来是这个样子:横轴表示房子的面积,单位是平方英尺,纵轴表示房价,单位是千美元。那基于这组数据,假如有一个朋友,他有一套750平方英尺房子,现在他希望把房子卖掉,他想知道这房子能卖多少钱。那么关于这个问题,机器学习算法将会怎么帮助你呢。
从图可知,我们可以用直线或者曲线对已知的数据进行拟合 ,从而获得相应的房子价格。
可以看出,监督学习指的就是我们给学习算法一个数据集。这个数据集由“正确答案”组成。在房价的例子中,我们给了一系列房子的数据,我们给定数据集中每个样本的正确价格,即它们实际的售价然后运用学习算法,算出更多的正确答案。用术语来讲,这叫做回归问题。我们试着推测出一个连续值的结果,即房子的价格。
例2.
有一组数据:这个数据集中,横轴表示肿瘤的大小,纵轴上,标出1和0表示是或者不是恶性肿瘤。对于肿瘤,如果是恶性则记为1,不是恶性,或者说良性记为0。如果有一个朋友很不幸检查出乳腺肿瘤。那么机器学习的问题就在于,你能否能够根据肿瘤大小,估算出肿瘤是恶性的或是良性的概率。
用术语来讲,这是一个分类问题。分类指的是,我们试着推测出离散的输出值:0或1,良性或恶性,而事实上在分类问题中,输出可能不止两个值。比如说可能有三种乳腺癌,所以你希望预测离散输出0、1、2、3。0 代表良性,1 表示第1类乳腺癌,2表示第2类癌症,3表示第3类,但这也是分类问题。
因为这几个离散的输出分别对应良性,第一类第二类或者第三类癌症,在分类问题中我们可以用另一种方式绘制这些数据点。
现在用不同的符号来表示这些数据。既然我们把肿瘤的尺寸看做区分恶性或良性的特征,那么可以这么画,用不同的符号来表示良性和恶性肿瘤。或者说是负样本和正样本现在我们不全部画“X”,良性的肿瘤改成用 “O” 表示,恶性的继续用 “X” 表示。来预测肿瘤的恶性与否。
在其它一些机器学习问题中,可能会遇到不止一种特征。举个例子,我们不仅知道肿瘤的尺寸,还知道对应患者的年龄。在其他机器学习问题中,我们通常有更多的特征,比如肿块密度,肿瘤细胞尺寸的一致性和形状的一致性等等,还有一些其他的特征。这就是我们即将学习算法之一。
这种算法不仅能处理2种3种或5种特征,即使有无限多种特征都可以处理。
图中,列举了总共5种不同的特征,坐标轴上的两种和右边的3种,但是在一些学习问题中,只用3种或5种特征。相反,你想用无限多种特征,好让你的算法可以利用大量的特征,或者说线索来做推测。那你怎么处理无限多个特征,甚至怎么存储这些特征都存在问题,你电脑的内存肯定不够用。我们以后会讲一个算法,叫支持向量机,里面有一个巧妙的数学技巧,能让计算机处理无限多个特征。想象一下,我没有写下这两种和右边的三种特征,而是在一个无限长的列表里面,一直写一直写不停的写,写下无限多个特征,事实上,我们能用算法来处理它们。
现在来回顾一下监督学习。其基本思想是,数据集中的每个样本都有相应的“正确答案”。再根据这些样本作出预测,就像房子和肿瘤的例子中做的那样。我们还介绍了回归问题,即通过回归来推出一个连续的输出,之后我们介绍了分类问题
其目标是推出一组离散的结果。
1.3
无监督学习(Unsupervised Learning)
例3.
不同于监督学习的数据,无监督学习中没有任何标签。所以我们已知数据集,却不知如何处理。针对数据集,无监督学习就能判断出数据有两个不同的聚集簇。这是一个,那是另一个,二者不同。无监督学习算法可能会把这些数据分成两个不同的簇。所以叫做聚类算法。
例4.
在“基因组学”中,输入一组不同个体,对其中的每个个体,你要分析出它们是否有一个特定的基因。即不同的个体是否有着一个特定的基因。通过聚类算法,把每个个体聚类到不同的类或不同类型的组。
无监督学习或聚集还有着大量的应用。比如,组织大型计算机集群,社交网络的分析,市场分割,天文数据分析等。
假设现在是在个有些小的鸡尾酒宴中。放两个麦克风在房间中,因为这些麦克风在两个地方,离说话人的距离不同每个麦克风记录下不同的声音,虽然是同样的两个说话人。听起来像是两份录音被叠加到一起,或是被归结到一起。无监督学习可以轻松的对音频进行分离。事实上,这个算法可以就用一行代码来完成。
[W,s,v] = svd((repmat(sum(x.*x,1),size(x,1),1).*x)*x'); #代码方面先跳过
以上就是监督学习和无监督学习的内容。下面有两个小测试,大家可以在评论区回答。