零基础"机器学习"自学笔记|Note1:机器学习绪论

2022-06-09 178

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 这个系列为我在自学【机器学习】时的个人笔记。因为本人为医学相关专业，故学习过程中可能会有较多的纰漏，希望各位读者不吝赐教。

01

绪论

1.1

机器学习(Machine Learning）

机器学习是人工智能的一个分支。人工智能的研究历史有着一条从以“推理”为重点，到以“知识”为重点，再到以“学习”为重点的自然、清晰的脉络。显然，机器学习是实现人工智能的一个途径，即以机器学习为手段解决人工智能中的问题。机器学习在近30多年已发展为一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析（英语：Convex analysis）、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。机器学习算法是一类从数据中自动分析获得规律，并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论，机器学习与推断统计学联系尤为密切，也被称为统计学习理论。算法设计方面，机器学习理论关注可以实现的，行之有效的学习算法。很多推论问题属于无程序可循难度，所以部分的机器学习研究是开发容易处理的近似算法。

机器学习已广泛应用于数据挖掘、计算机视觉、自然语言处理、生物特征识别、搜索引擎、医学诊断、检测信用卡欺诈、证券市场分析、DNA序列测序、语音和手写识别、战略游戏和机器人等领域。

1.1.1

定义

机器学习有下面几种定义：

机器学习是一门人工智能的科学，该领域的主要研究对象是人工智能，特别是如何在经验学习中改善具体算法的性能。

机器学习是对能通过经验自动改进的计算机算法的研究。

机器学习是用数据或以往的经验，以此优化计算机程序的性能标准。

英文定义：A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E.

1.1.2

分类

监督学习

无监督学习

半监督学习

1.2

监督学习（Supervised Learning）

例1.

波特兰俄勒冈州的研究所收集了一些房价的数据。把这些数据画出来，看起来是这个样子：横轴表示房子的面积，单位是平方英尺，纵轴表示房价，单位是千美元。那基于这组数据，假如有一个朋友，他有一套750平方英尺房子，现在他希望把房子卖掉，他想知道这房子能卖多少钱。那么关于这个问题，机器学习算法将会怎么帮助你呢。

从图可知，我们可以用直线或者曲线对已知的数据进行拟合，从而获得相应的房子价格。

可以看出，监督学习指的就是我们给学习算法一个数据集。这个数据集由“正确答案”组成。在房价的例子中，我们给了一系列房子的数据，我们给定数据集中每个样本的正确价格，即它们实际的售价然后运用学习算法，算出更多的正确答案。用术语来讲，这叫做回归问题。我们试着推测出一个连续值的结果，即房子的价格。

例2.

有一组数据：这个数据集中，横轴表示肿瘤的大小，纵轴上，标出1和0表示是或者不是恶性肿瘤。对于肿瘤，如果是恶性则记为1，不是恶性，或者说良性记为0。如果有一个朋友很不幸检查出乳腺肿瘤。那么机器学习的问题就在于，你能否能够根据肿瘤大小，估算出肿瘤是恶性的或是良性的概率。

用术语来讲，这是一个分类问题。分类指的是，我们试着推测出离散的输出值：0或1，良性或恶性，而事实上在分类问题中，输出可能不止两个值。比如说可能有三种乳腺癌，所以你希望预测离散输出0、1、2、3。0 代表良性，1 表示第1类乳腺癌，2表示第2类癌症，3表示第3类，但这也是分类问题。

因为这几个离散的输出分别对应良性，第一类第二类或者第三类癌症，在分类问题中我们可以用另一种方式绘制这些数据点。

现在用不同的符号来表示这些数据。既然我们把肿瘤的尺寸看做区分恶性或良性的特征，那么可以这么画，用不同的符号来表示良性和恶性肿瘤。或者说是负样本和正样本现在我们不全部画“X”，良性的肿瘤改成用 “O” 表示，恶性的继续用 “X” 表示。来预测肿瘤的恶性与否。

在其它一些机器学习问题中，可能会遇到不止一种特征。举个例子，我们不仅知道肿瘤的尺寸，还知道对应患者的年龄。在其他机器学习问题中，我们通常有更多的特征，比如肿块密度，肿瘤细胞尺寸的一致性和形状的一致性等等，还有一些其他的特征。这就是我们即将学习算法之一。

这种算法不仅能处理2种3种或5种特征，即使有无限多种特征都可以处理。

图中，列举了总共5种不同的特征，坐标轴上的两种和右边的3种，但是在一些学习问题中，只用3种或5种特征。相反，你想用无限多种特征，好让你的算法可以利用大量的特征，或者说线索来做推测。那你怎么处理无限多个特征，甚至怎么存储这些特征都存在问题，你电脑的内存肯定不够用。我们以后会讲一个算法，叫支持向量机，里面有一个巧妙的数学技巧，能让计算机处理无限多个特征。想象一下，我没有写下这两种和右边的三种特征，而是在一个无限长的列表里面，一直写一直写不停的写，写下无限多个特征，事实上，我们能用算法来处理它们。

现在来回顾一下监督学习。其基本思想是，数据集中的每个样本都有相应的“正确答案”。再根据这些样本作出预测，就像房子和肿瘤的例子中做的那样。我们还介绍了回归问题，即通过回归来推出一个连续的输出，之后我们介绍了分类问题

其目标是推出一组离散的结果。

1.3

无监督学习(Unsupervised Learning)

例3.

不同于监督学习的数据，无监督学习中没有任何标签。所以我们已知数据集，却不知如何处理。针对数据集，无监督学习就能判断出数据有两个不同的聚集簇。这是一个，那是另一个，二者不同。无监督学习算法可能会把这些数据分成两个不同的簇。所以叫做聚类算法。

例4.

在“基因组学”中，输入一组不同个体，对其中的每个个体，你要分析出它们是否有一个特定的基因。即不同的个体是否有着一个特定的基因。通过聚类算法，把每个个体聚类到不同的类或不同类型的组。

无监督学习或聚集还有着大量的应用。比如，组织大型计算机集群，社交网络的分析，市场分割，天文数据分析等。

假设现在是在个有些小的鸡尾酒宴中。放两个麦克风在房间中，因为这些麦克风在两个地方，离说话人的距离不同每个麦克风记录下不同的声音，虽然是同样的两个说话人。听起来像是两份录音被叠加到一起，或是被归结到一起。无监督学习可以轻松的对音频进行分离。事实上，这个算法可以就用一行代码来完成。

[W,s,v] = svd((repmat(sum(x.*x,1),size(x,1),1).*x)*x');
#代码方面先跳过

以上就是监督学习和无监督学习的内容。下面有两个小测试，大家可以在评论区回答。

零基础"机器学习"自学笔记|Note1:机器学习绪论

01

1.1

1.1.1

1.1.2

1.2

1.3

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

零基础"机器学习"自学笔记|Note1:机器学习绪论

01

1.1

1.1.1

1.1.2

1.2

1.3

热门文章

最新文章

相关课程

相关电子书

相关实验场景