零基础"机器学习"自学笔记|Note1:机器学习绪论

简介: 这个系列为我在自学【机器学习】时的个人笔记。因为本人为医学相关专业,故学习过程中可能会有较多的纰漏,希望各位读者不吝赐教。

01


绪论


1.1


机器学习(Machine Learning)


   机器学习是人工智能的一个分支。人工智能的研究历史有着一条从以“推理”为重点,到以“知识”为重点,再到以“学习”为重点的自然、清晰的脉络。显然,机器学习是实现人工智能的一个途径,即以机器学习为手段解决人工智能中的问题。机器学习在近30多年已发展为一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析(英语:Convex analysis)、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。很多推论问题属于无程序可循难度,所以部分的机器学习研究是开发容易处理的近似算法。


   机器学习已广泛应用于数据挖掘、计算机视觉、自然语言处理、生物特征识别、搜索引擎、医学诊断、检测信用卡欺诈、证券市场分析、DNA序列测序、语音和手写识别、战略游戏和机器人等领域。


1.1.1


定义


机器学习有下面几种定义:


机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能。


机器学习是对能通过经验自动改进的计算机算法的研究。


机器学习是用数据或以往的经验,以此优化计算机程序的性能标准。


英文定义:A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E.


1.1.2


分类


监督学习


无监督学习


半监督学习


1.2


监督学习(Supervised Learning)


例1.


image.png


波特兰俄勒冈州的研究所收集了一些房价的数据。把这些数据画出来,看起来是这个样子:横轴表示房子的面积,单位是平方英尺,纵轴表示房价,单位是千美元。那基于这组数据,假如有一个朋友,他有一套750平方英尺房子,现在他希望把房子卖掉,他想知道这房子能卖多少钱。那么关于这个问题,机器学习算法将会怎么帮助你呢。


从图可知,我们可以用直线或者曲线对已知的数据进行拟合 ,从而获得相应的房子价格。


可以看出,监督学习指的就是我们给学习算法一个数据集。这个数据集由“正确答案”组成。在房价的例子中,我们给了一系列房子的数据,我们给定数据集中每个样本的正确价格,即它们实际的售价然后运用学习算法,算出更多的正确答案。用术语来讲,这叫做回归问题。我们试着推测出一个连续值的结果,即房子的价格。


例2.


image.png


有一组数据:这个数据集中,横轴表示肿瘤的大小,纵轴上,标出1和0表示是或者不是恶性肿瘤。对于肿瘤,如果是恶性则记为1,不是恶性,或者说良性记为0。如果有一个朋友很不幸检查出乳腺肿瘤。那么机器学习的问题就在于,你能否能够根据肿瘤大小,估算出肿瘤是恶性的或是良性的概率。


用术语来讲,这是一个分类问题。分类指的是,我们试着推测出离散的输出值:0或1,良性或恶性,而事实上在分类问题中,输出可能不止两个值。比如说可能有三种乳腺癌,所以你希望预测离散输出0、1、2、3。0 代表良性,1 表示第1类乳腺癌,2表示第2类癌症,3表示第3类,但这也是分类问题。


image.png


因为这几个离散的输出分别对应良性,第一类第二类或者第三类癌症,在分类问题中我们可以用另一种方式绘制这些数据点。


现在用不同的符号来表示这些数据。既然我们把肿瘤的尺寸看做区分恶性或良性的特征,那么可以这么画,用不同的符号来表示良性和恶性肿瘤。或者说是负样本和正样本现在我们不全部画“X”,良性的肿瘤改成用 “O” 表示,恶性的继续用 “X” 表示。来预测肿瘤的恶性与否。


image.png


在其它一些机器学习问题中,可能会遇到不止一种特征。举个例子,我们不仅知道肿瘤的尺寸,还知道对应患者的年龄。在其他机器学习问题中,我们通常有更多的特征,比如肿块密度,肿瘤细胞尺寸的一致性和形状的一致性等等,还有一些其他的特征。这就是我们即将学习算法之一。


这种算法不仅能处理2种3种或5种特征,即使有无限多种特征都可以处理。


图中,列举了总共5种不同的特征,坐标轴上的两种和右边的3种,但是在一些学习问题中,只用3种或5种特征。相反,你想用无限多种特征,好让你的算法可以利用大量的特征,或者说线索来做推测。那你怎么处理无限多个特征,甚至怎么存储这些特征都存在问题,你电脑的内存肯定不够用。我们以后会讲一个算法,叫支持向量机,里面有一个巧妙的数学技巧,能让计算机处理无限多个特征。想象一下,我没有写下这两种和右边的三种特征,而是在一个无限长的列表里面,一直写一直写不停的写,写下无限多个特征,事实上,我们能用算法来处理它们。


现在来回顾一下监督学习。其基本思想是,数据集中的每个样本都有相应的“正确答案”。再根据这些样本作出预测,就像房子和肿瘤的例子中做的那样。我们还介绍了回归问题,即通过回归来推出一个连续的输出,之后我们介绍了分类问题


其目标是推出一组离散的结果。


1.3


无监督学习(Unsupervised Learning)


例3.


image.png


不同于监督学习的数据,无监督学习中没有任何标签。所以我们已知数据集,却不知如何处理。针对数据集,无监督学习就能判断出数据有两个不同的聚集簇。这是一个,那是另一个,二者不同。无监督学习算法可能会把这些数据分成两个不同的簇。所以叫做聚类算法。


例4.


image.png


在“基因组学”中,输入一组不同个体,对其中的每个个体,你要分析出它们是否有一个特定的基因。即不同的个体是否有着一个特定的基因。通过聚类算法,把每个个体聚类到不同的类或不同类型的组。


image.png


无监督学习或聚集还有着大量的应用。比如,组织大型计算机集群,社交网络的分析,市场分割,天文数据分析等。


image.png


假设现在是在个有些小的鸡尾酒宴中。放两个麦克风在房间中,因为这些麦克风在两个地方,离说话人的距离不同每个麦克风记录下不同的声音,虽然是同样的两个说话人。听起来像是两份录音被叠加到一起,或是被归结到一起。无监督学习可以轻松的对音频进行分离。事实上,这个算法可以就用一行代码来完成。

[W,s,v] = svd((repmat(sum(x.*x,1),size(x,1),1).*x)*x');
#代码方面先跳过

以上就是监督学习和无监督学习的内容。下面有两个小测试,大家可以在评论区回答。


image.png


image.png


相关文章
|
1月前
|
机器学习/深度学习 计算机视觉 Python
模型预测笔记(三):通过交叉验证网格搜索机器学习的最优参数
本文介绍了网格搜索(Grid Search)在机器学习中用于优化模型超参数的方法,包括定义超参数范围、创建参数网格、选择评估指标、构建模型和交叉验证策略、执行网格搜索、选择最佳超参数组合,并使用这些参数重新训练模型。文中还讨论了GridSearchCV的参数和不同机器学习问题适用的评分指标。最后提供了使用决策树分类器进行网格搜索的Python代码示例。
66 1
|
5月前
|
机器学习/深度学习 算法 BI
机器学习笔记(一) 感知机算法 之 原理篇
机器学习笔记(一) 感知机算法 之 原理篇
|
5月前
|
机器学习/深度学习 算法 数据可视化
技术心得记录:机器学习笔记之聚类算法层次聚类HierarchicalClustering
技术心得记录:机器学习笔记之聚类算法层次聚类HierarchicalClustering
55 0
|
5月前
|
机器学习/深度学习 分布式计算 API
技术好文:Spark机器学习笔记一
技术好文:Spark机器学习笔记一
42 0
|
6月前
|
机器学习/深度学习 自然语言处理 PyTorch
fast.ai 机器学习笔记(四)(1)
fast.ai 机器学习笔记(四)
137 1
fast.ai 机器学习笔记(四)(1)
|
6月前
|
机器学习/深度学习 数据挖掘 Python
fast.ai 机器学习笔记(一)(4)
fast.ai 机器学习笔记(一)
128 1
fast.ai 机器学习笔记(一)(4)
|
6月前
|
机器学习/深度学习 Python 文件存储
fast.ai 机器学习笔记(一)(3)
fast.ai 机器学习笔记(一)
132 1
fast.ai 机器学习笔记(一)(3)
|
6月前
|
存储 机器学习/深度学习 前端开发
fast.ai 机器学习笔记(一)(2)
fast.ai 机器学习笔记(一)
124 1
fast.ai 机器学习笔记(一)(2)
|
6月前
|
机器学习/深度学习 Python 索引
fast.ai 机器学习笔记(二)(4)
fast.ai 机器学习笔记(二)
58 0
fast.ai 机器学习笔记(二)(4)
|
6月前
|
索引 机器学习/深度学习 Python
fast.ai 机器学习笔记(二)(3)
fast.ai 机器学习笔记(二)
73 0
fast.ai 机器学习笔记(二)(3)

热门文章

最新文章