让你少走弯路:这有一份开展机器学习的简短指南

简介: 本文分享了一份简单的关于开展机器学习的心得体会,目的是给初学者提供基本的指导,主要讲解了建立系统、选择合适的评价指标、数据处理、系统优化等内容,帮助初学者少走一些弯路。
这是一份关于开展机器学习的简短指南,以下为译文。

简单任务:

假设你有一个问题,并且你喜欢用机器学习来解决它,然后在现实项目中使用该系统。我喜欢简单分享我的方法,目的是给初学者提供基本的指导并记录这些东西来提醒自己。

当遇到任何问题,首先有很多的学习算法,建立的大数据知识应用在针对某些特定问题的模型上,所有的这些想法都遵循以下三个阶段:

定义基于度量的目标

建立系统

用更多的数据优化系统

下面查看这些步骤的更多细节

定义目标和指标

人类水平 VS 可接受

第一件事情,是需要从系统性能中调整预期质量。我们所期望的人类水平的表现,如果它是医疗诊断系统,或者它是一个简单的移动应用程序,我们可能更喜欢成本较低的。这一决定定义了系统的成本(时间,金钱和工程)。当我们增加期望时,也需要投入更多的成本

什么指标用于度量

针对面临的相关问题,定义合适的指标衡量系统性能。它应该匹配问题的性质。可能选择是以下这些;

   精确 - 目标分类

   复查 - 医疗诊断

   大量错误 - 房屋租赁价格预测

   F评分 - 文献分类分类

定义合适的指标造成巨大的特性差异。它涉及在你开发解决方案的人工环境了解用户(或客户)找到用户的选择匹配标准过程。

建立系统

创建基线ASAP

不要试图设计出没有时钟的时间机器。首先设计有着任何工具和算法易于使用和实现的最小可行的系统。将这个定义为基线。基线对于显示你的增益什么而言是有用的,无论它是显著性、随机性或其它。

改善基线

当基线系统完成后,就可以开始向里添加内容。遵循一些渐近的步骤会使得事情更容易跟随,那么当一些事情不像预期那样工作,也容易进行备份。不要浪费时间在最先进的空间技术水平,如果数据有需求,那么就竭力获得更高级的方法。

例如,针对你的问题,并不总是直接使用ImageNet胜利者的初始网络就是正确的选择。基于对数据的观察再定义你的模型结构。在一般情况下,如果噪声和数据是易于分离的,那么可以使用较浅的模型。噪声减小并且数据结构增加就需要去采取更深更宽的模型。

更深与更宽模型之间的差别在于:更深层次的模型更好地捕捉到更高层的抽象特征,这些对于区分特别不同类别(汽车 VS 马)而言是非常重要;更宽的模型更好地处理精细的问题,比如处理类别之间非常接近、只有轻微的共性区分(猫的种类)。

模型的种类

基于你的问题,有更好的机器学习模型的子集,这些模型可能用其它问题,但最好始终保持模型的性质和问题的性质相一致。

   原始数据 ——> 全连接网络(MLP

   空间数据(图像)——>卷积网络

   时间、序列数据——>递归神经网络(LSTM,RNN,GRU

提炼数据

假设你完成你的系统并取得了很好的结果,但这不是结束,仍然有相关工作需要做:

不要相信数字

虽然之前总是基于受控环境中的度量值来衡量成功。但这些值可能不是现实世界中的指标,因为数据可能会改变或者用户可能会改变。因此,在初始应用后要经常检查系统的性能。做A / B测试,用实时数据检查指标值,并使用实际值验证你的假说。

更新最新的数据

如果能够及时获得更多的数据并总用它来更新和调整模型,更多的数据一定会提高性能。不要跳过这一过程,因为随着越来越多的数据更新系统,你甚至可以达到难以想象的结果。这也是像谷歌这样一类大公司的技巧。他们真的熟练使用并运行数据以提高他们的产品。

最后一句话

这篇文章中,跳过了很多内容,比如训练模型,发现其缺陷并进行修改,重复这一过程以提升性能,你可以看另外一篇文章查看具体的细节。

数十款阿里云产品限时折扣中,赶紧点击领劵开始云上实践吧!

本文由北邮@爱可可-爱生活 老师推荐,阿里云云栖社区组织翻译。

文章原标题《Short guide to deploy Machine  Learning》,作者:EROGOL,译者:海棠 

 本文为简译,更为详细的内容,请查看原文

 

相关文章
|
3月前
|
人工智能 搜索推荐 安全
ChatGPT 盈利指南:第八章到第十章
ChatGPT 盈利指南:第八章到第十章
508 0
|
机器学习/深度学习 自然语言处理 文字识别
写论文和平时学习时有用的网站
写论文和平时学习时有用的网站
74 0
R数据科学|第十章内容介绍(一)
本章通过学习字符串的处理,再结合正则表达式进行正确的模式匹配。
105 0
R数据科学|第十章内容介绍(二)
本章通过学习字符串的处理,再结合正则表达式进行正确的模式匹配。
247 0
R数据科学|第十章内容介绍(二)
R数据科学|第十一章内容介绍
因子在 R 中用于处理分类变量。从历史上看,因子远比字符串更容易处理。因此,R 基础包中的很多函数都自动将字符串转换为因子。
152 0
R数据科学|第十一章内容介绍
|
SQL
R数据科学|第九章内容介绍
在实际应用中,我们常会涉及到多个数据表,必须综合使用它们才能找到关键信息。存在于多个表中的这种数据统称为关系数据。本章中的很多概念都和SQL中的相似,只是在dplyr中的表达形式略微不同。一般来说,dplyr 要比 SQL 更容易使用
116 0
R数据科学|第九章内容介绍
|
机器学习/深度学习 算法
机器学习--1. 疑惑及个人见解
最近一段时间,在学习机器学习,学习过程中遇到了一些疑惑,再次记录下来,一方面梳理自己的思路,另一方面给大家分享避免踩坑,欢迎argue。。。
246 0
|
算法 机器学习/深度学习 BI
干货 | 关于机器学习的知识点,全在这篇文章里了
本文为大家介绍机器学习的魅力与可怕。
3850 0
|
机器学习/深度学习 人工智能 算法
|
机器学习/深度学习 算法 API
不该被忽视的五个机器学习项目
本文将介绍5个机器学习或机器学习相关的项目,你可能还没有听说过,但可能应该考虑重视一下了!
4702 0