开发者学堂课程【高校精品课-华东师范大学-人工智能基础:算法的性能评价】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/920/detail/15578
算法的性能评价
内容介绍:
一、机器学习(Maxhine Learning)
二、机器学习模型分类
三、机器学习的一般流程
一、机器学习(Maxhine Learning)
机器学习是人工智能的核心,是以人工智能为研究对象的科学。通过对数据进行学习获取经验,再使用学习到的经验对原算法的性能进行选代优化,从而不断提高算法效果。
机器学习的过程与人类学习过程类似,例如识别图像的步骤如下:
(1)首先要收集大量样本图像,并标明这些图像的类别,这个过程称为样本标注。样本标注的过程就像给幼儿展示轮船图片,并告诉它这是轮船,这些样本图像就是数据集。
(2)把样本和标注送给算法学习的过程称为训练。训练完成后会得到一个模型,这个模型是通过对这些样本进行总结归纳最后得到的知识。
(3)用这个模型对新的图像进行识别,称为预测
二、机器学习模型分类
(1)从模型的函数是否是线性,可以将模型分为线性模型和非线性模型。
(2)从模型的送代层次方面,可以将模型分为浅层模型和深度模型。
(3)从模型的复合性方面,可可以将模型分为单一模型和集成模型。
无论是人脸识别还是图像分类,机器学习都体现出了极强的学习能力。模型选择考虑的因素如下:问题类型
数据形式
数据规模
模型泛化能力
算法模型的性能
三、机器学习的一般流程
(1)分析问题:明确问题的类型和需求,判断问题是否可解
(2)获取数据:
可以使用数据文件,sklearn 中也提供了数据集,如莺尾花、波士顿房价数据集等。使用方法为:
from sklearn.datasets import load boston
boston = load boston
()
数据集目录:
anaconda3\Lib
\
site-packages\sklearn\datasets\data
以波士顿房价数据集为例
I
n [ ]: from sklearn.datasets import load boston
boston = load boston
()
//把波士顿房价数据集加载进,对加载的数据集创建一个对象//
boston//显示这个对象 //
可以看到数据集的 data 部分 target 是标记类别,feature_name 特征名,DESCR 描述文字。
(3)模型训练:针对选定的模型,使用给定的数据进行训练,得到所需要的模型。
(4)测试模型:使用之前要使用一些测试数据对模型进行测试,了解模型的性能指标。
具体应用时每个模型都有区别,需要根据实际应用调整。