开发者学堂课程【机器学习实战:总结与回顾】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/530/detail/7136
总结与回顾
内容介绍
一、 课程回顾
二、 学习目标
三、 思考与练习
一、课程回顾
机械流程学习完成了,接下来课程回顾,内容有:
1、机器学习的整体流程
2、如何进行需求分析,包括数据探索、场景分析等
3、介绍数据预处理,包括清洗、集成、变换、规约等
4、特征工程,包括特征的产生、变换、评估、选择等
5、使用数据集训练模型及对模型结果进行评估
6、模型的部署和应用
第 1 点介绍了机器学习的整体流程,这种方法论的东西对输出一个质量稳定的项目来说是非常重要的。依据方法论的东西不能保证项目做的有多好,但是肯定可以保证项目质量是在水准之上的,不会偏差太多。
第 2 点介绍了如何进行需求分析,要了解数据的状况,包括数据探索和场景分析等。要进行人物场景分析,将任务的东西用数据表示出来。
第 3 点介绍了数据预处理,该部分的工作量比较大,包括清洗,集成,评估,规约等。
第 4 点介绍了特征工程,介绍了特征工程在整个机器学习过程中非常重要。因为算法可能相同,数据也可能相同,但是最后结果相差比较大,因为有的利用特征工程创建了优质的特征从而导致最后结果比较好。特征工程的内容其实很复杂,因为本课程只是入门的课程,所以关于特征工程的内容只是进行了简单介绍。
第 5 点是如何使用数据集训练模型以及如何对模型结果进行评估。重点介绍了分裂模型等,包括一些常用的数据指标,实际上对于分类,对于聚类和回归都有不同的评判方法,本课程重点介绍了分类,大家也可能花时间了解一下分裂和回归。
第 6 点介绍了模型的部署和应用,如何根据需求把应用嵌入到业务流中。并且模型不是一劳永逸的,需要根据业务数据的变化和输出结果的优异进行定期的模型更新,也就是周期管理。
二、学习目标
1、了解机器学习的整体流程
2、能根据实际场景进行需求分析:能确定问题是什么,需要哪些数据,需要哪些算法
3、掌握基本的数据预处理的方法
4、能进行模型训练和结果评估:如何根据数据集进行模型训练,模型产出后能根据各种技术手段,技术指标进行评估。能比较不同结果之间的优劣
5、能合理部署及应用模型
三、思考与练习
1、了解机器学习的完整流程,以 Titanic 数据集为例,简述思路。
2、基于第一章中介绍的例子,进行需求分析。
3、找一些周知数据集,进行数据探查,发掘数据的特点。
4、找一些周知数据集,尝试从多个维度扩展特征,越多越好。并使用介绍的评估技术,对新特征进行评估,筛选出重要特征。
5、掌握两分类模型的评估方法,基于两分类数据集,使用编程语言或者其他工具( Excel )等,生成混淆矩阵,并绘制 ROC 曲线。也可以编个小程序来进行,增进对细节的理解。
6、描述分类模型、聚类模型应用流程的区别。进行数据时,对于分类的项目和数据的项目要有一个区别。
7、了解在线模型应用和离线模型应用的区别,试结合几个例子进行说明。