为你解析机器学习品酒步骤(附视频)

本文涉及的产品
全局流量管理 GTM,标准版 1个月
公共DNS(含HTTPDNS解析),每月1000万次HTTP解析
云解析 DNS,旗舰版 1个月
简介:

不论是皮肤癌监测、黄瓜自动分拣还是检测故障电梯,机器学习都让计算机有了全新的能力。

accd3cab41b1360bf38b974b68bf7e30347a3291

但是在机器学习内部,整个机制又是如何运作的呢?我们先举一个简单的例子,然后由此详细解读机器学习从数据当中获得解答的整个过程。

请看 Yufeng 为大家带来的讲解:

4f2e14ac6b5e8f8e44ce442f28468f485f817fb0

视频时长约10分钟,建议WIFI环境下观看

我们先假设这样一个需求:建立一个能够回答面前这杯液体是啤酒还是红酒的问答系统。我们要建立的这一问答系统被称为“模型”,而此模型的建立过程被称为“训练”。训练的目的是创建出一个在绝大多数情况下能正确回答问题的精准模型。为了进行这样的训练,我们必须要搜集足够的数据,而这就是整个流程的起点。

红酒还是啤酒?

我们的数据要从一杯一杯的红酒和啤酒当中搜集。而它们汲取可数据之处颇多,诸如泡沫数量和酒杯的形状等特征都是搜集的重点。

cddba2f9ecf857eec491e05f463a9661cb688f4a

此处,我们从中选取两个方面来搜集数据:酒水颜色(光波长)和酒精含量(浓度)。预期的效果就是通过这两项因子就分辨出两种酒水。后文中,我们会称“颜色”和“酒精浓度”为数据的“特征”。

好了,现在第一步就是到商店去买各式各样的啤酒和红酒,同时还需要淘一些测量所需的装备——测光波长的分光仪和测酒精浓度的液体比重仪。

搜集数据

一旦所有食(jiu)材(shui)和装备都齐全了,就进入了“七步走”的第一步:搜集数据。这一步至关重要,因为你所搜集的数据量和质量将决定最终形成的预测模型的好坏。比如我们的流程中,所采集的数据就是每一个样本的颜色(即透射光波长)和酒精浓度。

42bdca34b93ff84fb6ed4937d6223dd2832e1e0f

一种一种测完之后,大致会形成类似上述表格的数据。

数据准备

几个小时之后,我们搜集到了不少数据,接下来就要进入下一步骤:数据准备。这一步中,我们将会把数据导出到一个适当的地方,以备后期训练模型时使用。

首先将所有数据放在一起,然后将其顺序打乱。由于顺序不是判断酒水的依据,我们并不期望顺序影响到模型学习到的内容。换言之,我们判断一种酒是红的还是啤的,并不需要知道前一种或是接下来有什么酒出现。

02bc197d7472cd759e91876a5d29e218d6c20d75

这时,可以着手绘出可视化的数据分析结果,这些分析图将有助于你发现不同变量之间的潜在相关性,并且能帮你发现是否有数据失衡。比如,假若我们的数据中大量结果都表现出啤酒的特征,那么模型大多数时候都遇到了啤酒,所以它的推测也将倾向于啤酒。但是真实世界中,模型需要判断的啤酒和红酒的量很有可能是相同的,假若它按照训练的结果得出的大部分都是啤酒,那么它有不少时候都得出了错误的结论。

我们还需要将数据分成两部分。

d47e62d2b349aca45e42305ed6714efbe5ed61d9 第一部分用于训练模型,它们将占全部数据中的绝大多数。
d47e62d2b349aca45e42305ed6714efbe5ed61d9 另一部分则是用于评估模型的判断能力的。

显然我们不希望用于训练的数据被拿来检测模型,因为这些数据很可能被模型给直接记住了,答案脱口而出。这就好像你在考试里总不会出现平时的作业原题那样。有时我们得到的数据需要一些其他形式的调整和操作,比如去重、规范化和纠错等等,这些都需要在数据准备的过程当中完成。 而我们的这个问答系统训练用的数据并不需要进一步操作,所以现在进入下一环节。

选择模型

下一步就是要选择模型了。这些年,研究者和数据科学家研究出了很多很多的通用模型。其中不少都非常适用于图像数据,另有一些则适用于连续性数据(比如文本和音频),一些适用于数值型数据,另外的则擅长处理基于文本的数据。在我们的例子当中,由于仅仅只有两项特征,所以可以使用小型的线性分析模型,一种非常小但是又足够完成分析的模型。

训练模型

接下来就是整个机器学习过程中最重要的步骤了——训练模型。经过这一过程,我们的模型将会逐步提高判断酒水是红是啤的能力。

0e939b664c1c8c8cc4828f90892530a7105423f1

从某种程度上讲,这与一个人初学开车是类似的。一开始,他并不知道踏板、把手和按钮各有什么作用,但经过一系列的联系,并且在教练的纠(chou)正(ma)之后,他逐渐成长为合格的新手。经过多次磨练,他会越来越娴熟,直至成为秋名山车神一样的老司机。

c18728dffba50a50ffcb7af2d5d7977cd505faec

我们会在自己的模型上进行一个小规模的训练。一条直线的方程是 y = m * x + b,x 是输入,m 是直线的斜率,b 是纵轴的截距,y 是直线上对应 x 的值。我们需要训练的值就是 m 和 b。由于整个表达式只有输出 y 和输入 x,所以只有该两个变量需要训练。

aa8f51adfe6e7efba958e901e522fc932ad4ad6a

机器学习中,有多少特征就有多少个 m,而 m 的值通常都用一个矩阵来表达,我们用“W”标记以表示“weight”(权重)。类似的,我们将 b 也用矩阵表示,简记为“b”,也就是“biases”(偏差)。

训练的过程,将会给 W 和 b 一定的初始值,然后用这些值来尝试预测。如你所料,一开始的结果往往不符合要求,但我们可以通过与“应得结果”比较,并修改 W 和 b 来得到比较准确的预测。

399310809ac29a964b62a56c6ea3d10e43b62cfc

上述过程将会重复进行,每一次迭代或者循环都被称为训练过程的“阶”。

我们再回头看看整个过程。一开始,我们好似随机画了一条线来分开红酒和啤酒。接下来,每一次循环,这条线都进行一定的移动,逐渐逼近那条理想的、假想的红酒和啤酒分界线。

评估模型

一旦训练完毕,我们就要对得到的模型进行评估。此时,早前我们留下的那一小部分数据就派上用场了。在评估中,我们使用之前从未使用过的数据来测试模型,得到输出并与正确的判定结果对比。这种方法能够让我们知道模型在遇到未接触的数据时的表现情况,同时也展示了模型在现实世界的表现。

推荐训练和评估所用的数据比例是 4:1 或 7:3。选取何种比例取决于原始数据集的规模。如果你的数据非常多,那么用于验证的数据可能就不需要那么多了。

参数微调

评估结束,你也许想要尝试着改善训练的成果,此时可以进行参数微调。在训练过程中,我们可能隐式使用了一些假设,而现在就回过头去验证这些假设或是改变它们的值。

举个例子,其中一个可行的调整是针对训练次数的。通过调整重复次数,我们可以一定程度提高模型的精度。

cb3af02fcc16360c7499d5b547fe20a63f04ab75

另外还有“学习频率”,会影响到每一次训练结束时相对上一次训练变化的程度。这些值都决定了我们最终模型的精度和训练耗时。

对于更加复杂的模型,初始条件对结果的影响也是非常大的。究竟是使用一系列 0 值还是一系列离散值作为初始值是引起这类影响的关键,而采用离散值则需要决定怎样的离散形式。

从前文的内容可见,训练的过程中我们需要考虑非常多的内容。并且,什么时候结束、什么程度算是“到火候了”都是需要考虑的问题,不然可能会出现反复纠结的情形。

这一类的参数往往被称为“超参数”,调整和优化它们更像是一种技巧而不是一种理论。这是一个实验性的过程,并且取决于你的数据集类型、模型种类和训练手段。

训练完毕、微调结束,你得到了满意的模型,那么是时候来实操了!

预测

机器学习是一个通过数据解决问题的过程,所以预测(或是推断)就是获取答案的关键一步。这也是实现机器学习价值的关键一步。

cf9d7a64bd4c55713c0130533d944284b1f8ebb1

通过给出颜色(光波长)和酒精浓度,我们的模型将能够判断出你面前的是一杯红酒还是啤酒。

触类旁通

机器学习的强大之处在于它使得我们可以判断出酒的品类,而不需经过亲自品尝和人为判断。你可以将今天案例中的中心思想举一反三到其他的预测中,它们都遵循如下准则:

d47e62d2b349aca45e42305ed6714efbe5ed61d9 搜集数据
d47e62d2b349aca45e42305ed6714efbe5ed61d9 准备数据
d47e62d2b349aca45e42305ed6714efbe5ed61d9 选择模型
d47e62d2b349aca45e42305ed6714efbe5ed61d9 训练模型
d47e62d2b349aca45e42305ed6714efbe5ed61d9 评估模型
d47e62d2b349aca45e42305ed6714efbe5ed61d9 参数微调

d47e62d2b349aca45e42305ed6714efbe5ed61d9预测


原文发布时间为:2018-06-1

本文来自云栖社区合作伙伴“数据派THU”,了解相关信息可以关注“数据派THU”。

相关文章
|
14天前
|
前端开发 JavaScript
React 步骤条组件 Stepper 深入解析与常见问题
步骤条组件是构建多步骤表单或流程时的有力工具,帮助用户了解进度并导航。本文介绍了在React中实现简单步骤条的方法,包括基本结构、状态管理、样式处理及常见问题解决策略,如状态管理库的使用、自定义Hook的提取和CSS Modules的应用,以确保组件的健壮性和可维护性。
54 17
|
2月前
|
开发框架 供应链 监控
并行开发模型详解:类型、步骤及其应用解析
在现代研发环境中,企业需要在有限时间内推出高质量的产品,以满足客户不断变化的需求。传统的线性开发模式往往拖慢进度,导致资源浪费和延迟交付。并行开发模型通过允许多个开发阶段同时进行,极大提高了产品开发的效率和响应能力。本文将深入解析并行开发模型,涵盖其类型、步骤及如何通过辅助工具优化团队协作和管理工作流。
77 3
|
3月前
|
机器学习/深度学习 数据采集 算法
R语言中的机器学习库:caret与mlr的深度解析
【9月更文挑战第2天】Caret和mlr是R语言中两个非常重要的机器学习库,它们在数据预处理、模型构建、调优和评估等方面提供了丰富的功能。Caret以其易用性和集成性著称,适合初学者和快速原型开发;而mlr则以其全面性和可扩展性见长,适合处理复杂的机器学习项目。在实际应用中,用户可以根据具体需求和项目特点选择合适的库进行开发。无论是学术研究、商业智能还是教育场景,这两个库都能为数据科学家和机器学习爱好者提供强大的支持。
|
9天前
|
机器学习/深度学习 人工智能 算法
机器学习与深度学习:差异解析
机器学习与深度学习作为两大核心技术,各自拥有独特的魅力和应用价值。尽管它们紧密相连,但两者之间存在着显著的区别。本文将从定义、技术、数据需求、应用领域、模型复杂度以及计算资源等多个维度,对机器学习与深度学习进行深入对比,帮助您更好地理解它们之间的差异。
|
1月前
|
数据采集 JSON 数据格式
深入解析:使用Python爬取Bilibili视频
本文介绍了如何使用Python编写脚本自动化下载Bilibili视频。通过requests等库获取视频和音频URL,使用ffmpeg合并音视频文件,最终实现高效下载。注意遵守网站爬虫政策和法律法规。
261 4
|
2月前
|
机器学习/深度学习 自然语言处理 JavaScript
信息论、机器学习的核心概念:熵、KL散度、JS散度和Renyi散度的深度解析及应用
在信息论、机器学习和统计学领域中,KL散度(Kullback-Leibler散度)是量化概率分布差异的关键概念。本文深入探讨了KL散度及其相关概念,包括Jensen-Shannon散度和Renyi散度。KL散度用于衡量两个概率分布之间的差异,而Jensen-Shannon散度则提供了一种对称的度量方式。Renyi散度通过可调参数α,提供了更灵活的散度度量。这些概念不仅在理论研究中至关重要,在实际应用中也广泛用于数据压缩、变分自编码器、强化学习等领域。通过分析电子商务中的数据漂移实例,展示了这些散度指标在捕捉数据分布变化方面的独特优势,为企业提供了数据驱动的决策支持。
144 2
信息论、机器学习的核心概念:熵、KL散度、JS散度和Renyi散度的深度解析及应用
|
2月前
|
数据安全/隐私保护 流计算 开发者
python知识点100篇系列(18)-解析m3u8文件的下载视频
【10月更文挑战第6天】m3u8是苹果公司推出的一种视频播放标准,采用UTF-8编码,主要用于记录视频的网络地址。HLS(Http Live Streaming)是苹果公司提出的一种基于HTTP的流媒体传输协议,通过m3u8索引文件按序访问ts文件,实现音视频播放。本文介绍了如何通过浏览器找到m3u8文件,解析m3u8文件获取ts文件地址,下载ts文件并解密(如有必要),最后使用ffmpeg合并ts文件为mp4文件。
|
3月前
|
机器学习/深度学习 存储 人工智能
让模型评估模型:构建双代理RAG评估系统的步骤解析
在当前大语言模型(LLM)应用开发中,评估模型输出的准确性成为关键问题。本文介绍了一个基于双代理的RAG(检索增强生成)评估系统,使用生成代理和反馈代理对输出进行评估。文中详细描述了系统的构建过程,并展示了基于四种提示工程技术(ReAct、思维链、自一致性和角色提示)的不同结果。实验结果显示,ReAct和思维链技术表现相似,自一致性技术则呈现相反结果,角色提示技术最为不稳定。研究强调了多角度评估的重要性,并提供了系统实现的详细代码。
70 10
让模型评估模型:构建双代理RAG评估系统的步骤解析
|
2月前
|
机器学习/深度学习 编解码 算法
深入解析MaxFrame:关键技术组件及其对视频体验的影响
【10月更文挑战第12天】随着流媒体服务和高清视频内容的普及,用户对于视频质量的要求越来越高。为了满足这些需求,许多技术被开发出来以提升视频播放的质量。其中,MaxFrame是一种旨在通过一系列先进的图像处理算法来优化视频帧的技术。本文将深入探讨构成MaxFrame的核心组件,包括运动估计、超分辨率重建以及时间插值算法,并讨论这些技术如何协同工作以改善视频播放效果。
48 1
|
2月前
|
机器学习/深度学习 算法 Python
深度解析机器学习中过拟合与欠拟合现象:理解模型偏差背后的原因及其解决方案,附带Python示例代码助你轻松掌握平衡技巧
【10月更文挑战第10天】机器学习模型旨在从数据中学习规律并预测新数据。训练过程中常遇过拟合和欠拟合问题。过拟合指模型在训练集上表现优异但泛化能力差,欠拟合则指模型未能充分学习数据规律,两者均影响模型效果。解决方法包括正则化、增加训练数据和特征选择等。示例代码展示了如何使用Python和Scikit-learn进行线性回归建模,并观察不同情况下的表现。
496 3

热门文章

最新文章

推荐镜像

更多