为你解析机器学习品酒步骤(附视频)

简介:

不论是皮肤癌监测、黄瓜自动分拣还是检测故障电梯,机器学习都让计算机有了全新的能力。

accd3cab41b1360bf38b974b68bf7e30347a3291

但是在机器学习内部,整个机制又是如何运作的呢?我们先举一个简单的例子,然后由此详细解读机器学习从数据当中获得解答的整个过程。

请看 Yufeng 为大家带来的讲解:

4f2e14ac6b5e8f8e44ce442f28468f485f817fb0

视频时长约10分钟,建议WIFI环境下观看

我们先假设这样一个需求:建立一个能够回答面前这杯液体是啤酒还是红酒的问答系统。我们要建立的这一问答系统被称为“模型”,而此模型的建立过程被称为“训练”。训练的目的是创建出一个在绝大多数情况下能正确回答问题的精准模型。为了进行这样的训练,我们必须要搜集足够的数据,而这就是整个流程的起点。

红酒还是啤酒?

我们的数据要从一杯一杯的红酒和啤酒当中搜集。而它们汲取可数据之处颇多,诸如泡沫数量和酒杯的形状等特征都是搜集的重点。

cddba2f9ecf857eec491e05f463a9661cb688f4a

此处,我们从中选取两个方面来搜集数据:酒水颜色(光波长)和酒精含量(浓度)。预期的效果就是通过这两项因子就分辨出两种酒水。后文中,我们会称“颜色”和“酒精浓度”为数据的“特征”。

好了,现在第一步就是到商店去买各式各样的啤酒和红酒,同时还需要淘一些测量所需的装备——测光波长的分光仪和测酒精浓度的液体比重仪。

搜集数据

一旦所有食(jiu)材(shui)和装备都齐全了,就进入了“七步走”的第一步:搜集数据。这一步至关重要,因为你所搜集的数据量和质量将决定最终形成的预测模型的好坏。比如我们的流程中,所采集的数据就是每一个样本的颜色(即透射光波长)和酒精浓度。

42bdca34b93ff84fb6ed4937d6223dd2832e1e0f

一种一种测完之后,大致会形成类似上述表格的数据。

数据准备

几个小时之后,我们搜集到了不少数据,接下来就要进入下一步骤:数据准备。这一步中,我们将会把数据导出到一个适当的地方,以备后期训练模型时使用。

首先将所有数据放在一起,然后将其顺序打乱。由于顺序不是判断酒水的依据,我们并不期望顺序影响到模型学习到的内容。换言之,我们判断一种酒是红的还是啤的,并不需要知道前一种或是接下来有什么酒出现。

02bc197d7472cd759e91876a5d29e218d6c20d75

这时,可以着手绘出可视化的数据分析结果,这些分析图将有助于你发现不同变量之间的潜在相关性,并且能帮你发现是否有数据失衡。比如,假若我们的数据中大量结果都表现出啤酒的特征,那么模型大多数时候都遇到了啤酒,所以它的推测也将倾向于啤酒。但是真实世界中,模型需要判断的啤酒和红酒的量很有可能是相同的,假若它按照训练的结果得出的大部分都是啤酒,那么它有不少时候都得出了错误的结论。

我们还需要将数据分成两部分。

d47e62d2b349aca45e42305ed6714efbe5ed61d9 第一部分用于训练模型,它们将占全部数据中的绝大多数。
d47e62d2b349aca45e42305ed6714efbe5ed61d9 另一部分则是用于评估模型的判断能力的。

显然我们不希望用于训练的数据被拿来检测模型,因为这些数据很可能被模型给直接记住了,答案脱口而出。这就好像你在考试里总不会出现平时的作业原题那样。有时我们得到的数据需要一些其他形式的调整和操作,比如去重、规范化和纠错等等,这些都需要在数据准备的过程当中完成。 而我们的这个问答系统训练用的数据并不需要进一步操作,所以现在进入下一环节。

选择模型

下一步就是要选择模型了。这些年,研究者和数据科学家研究出了很多很多的通用模型。其中不少都非常适用于图像数据,另有一些则适用于连续性数据(比如文本和音频),一些适用于数值型数据,另外的则擅长处理基于文本的数据。在我们的例子当中,由于仅仅只有两项特征,所以可以使用小型的线性分析模型,一种非常小但是又足够完成分析的模型。

训练模型

接下来就是整个机器学习过程中最重要的步骤了——训练模型。经过这一过程,我们的模型将会逐步提高判断酒水是红是啤的能力。

0e939b664c1c8c8cc4828f90892530a7105423f1

从某种程度上讲,这与一个人初学开车是类似的。一开始,他并不知道踏板、把手和按钮各有什么作用,但经过一系列的联系,并且在教练的纠(chou)正(ma)之后,他逐渐成长为合格的新手。经过多次磨练,他会越来越娴熟,直至成为秋名山车神一样的老司机。

c18728dffba50a50ffcb7af2d5d7977cd505faec

我们会在自己的模型上进行一个小规模的训练。一条直线的方程是 y = m * x + b,x 是输入,m 是直线的斜率,b 是纵轴的截距,y 是直线上对应 x 的值。我们需要训练的值就是 m 和 b。由于整个表达式只有输出 y 和输入 x,所以只有该两个变量需要训练。

aa8f51adfe6e7efba958e901e522fc932ad4ad6a

机器学习中,有多少特征就有多少个 m,而 m 的值通常都用一个矩阵来表达,我们用“W”标记以表示“weight”(权重)。类似的,我们将 b 也用矩阵表示,简记为“b”,也就是“biases”(偏差)。

训练的过程,将会给 W 和 b 一定的初始值,然后用这些值来尝试预测。如你所料,一开始的结果往往不符合要求,但我们可以通过与“应得结果”比较,并修改 W 和 b 来得到比较准确的预测。

399310809ac29a964b62a56c6ea3d10e43b62cfc

上述过程将会重复进行,每一次迭代或者循环都被称为训练过程的“阶”。

我们再回头看看整个过程。一开始,我们好似随机画了一条线来分开红酒和啤酒。接下来,每一次循环,这条线都进行一定的移动,逐渐逼近那条理想的、假想的红酒和啤酒分界线。

评估模型

一旦训练完毕,我们就要对得到的模型进行评估。此时,早前我们留下的那一小部分数据就派上用场了。在评估中,我们使用之前从未使用过的数据来测试模型,得到输出并与正确的判定结果对比。这种方法能够让我们知道模型在遇到未接触的数据时的表现情况,同时也展示了模型在现实世界的表现。

推荐训练和评估所用的数据比例是 4:1 或 7:3。选取何种比例取决于原始数据集的规模。如果你的数据非常多,那么用于验证的数据可能就不需要那么多了。

参数微调

评估结束,你也许想要尝试着改善训练的成果,此时可以进行参数微调。在训练过程中,我们可能隐式使用了一些假设,而现在就回过头去验证这些假设或是改变它们的值。

举个例子,其中一个可行的调整是针对训练次数的。通过调整重复次数,我们可以一定程度提高模型的精度。

cb3af02fcc16360c7499d5b547fe20a63f04ab75

另外还有“学习频率”,会影响到每一次训练结束时相对上一次训练变化的程度。这些值都决定了我们最终模型的精度和训练耗时。

对于更加复杂的模型,初始条件对结果的影响也是非常大的。究竟是使用一系列 0 值还是一系列离散值作为初始值是引起这类影响的关键,而采用离散值则需要决定怎样的离散形式。

从前文的内容可见,训练的过程中我们需要考虑非常多的内容。并且,什么时候结束、什么程度算是“到火候了”都是需要考虑的问题,不然可能会出现反复纠结的情形。

这一类的参数往往被称为“超参数”,调整和优化它们更像是一种技巧而不是一种理论。这是一个实验性的过程,并且取决于你的数据集类型、模型种类和训练手段。

训练完毕、微调结束,你得到了满意的模型,那么是时候来实操了!

预测

机器学习是一个通过数据解决问题的过程,所以预测(或是推断)就是获取答案的关键一步。这也是实现机器学习价值的关键一步。

cf9d7a64bd4c55713c0130533d944284b1f8ebb1

通过给出颜色(光波长)和酒精浓度,我们的模型将能够判断出你面前的是一杯红酒还是啤酒。

触类旁通

机器学习的强大之处在于它使得我们可以判断出酒的品类,而不需经过亲自品尝和人为判断。你可以将今天案例中的中心思想举一反三到其他的预测中,它们都遵循如下准则:

d47e62d2b349aca45e42305ed6714efbe5ed61d9 搜集数据
d47e62d2b349aca45e42305ed6714efbe5ed61d9 准备数据
d47e62d2b349aca45e42305ed6714efbe5ed61d9 选择模型
d47e62d2b349aca45e42305ed6714efbe5ed61d9 训练模型
d47e62d2b349aca45e42305ed6714efbe5ed61d9 评估模型
d47e62d2b349aca45e42305ed6714efbe5ed61d9 参数微调

d47e62d2b349aca45e42305ed6714efbe5ed61d9预测


原文发布时间为:2018-06-1

本文来自云栖社区合作伙伴“数据派THU”,了解相关信息可以关注“数据派THU”。

相关文章
|
5月前
|
机器学习/深度学习 传感器 监控
机器学习:强化学习中的探索策略全解析
在机器学习的广阔领域中,强化学习(Reinforcement Learning, RL)无疑是一个充满魅力的子领域。它通过智能体与环境的交互,学习如何在特定的任务中做出最优决策。然而,在这个过程中,探索(exploration)和利用(exploitation)的平衡成为了智能体成功的关键。本文将深入探讨强化学习中的探索策略,包括其重要性、常用方法以及代码示例来论证这些策略的效果。
|
4月前
|
机器学习/深度学习 人工智能 Java
Java机器学习实战:基于DJL框架的手写数字识别全解析
在人工智能蓬勃发展的今天,Python凭借丰富的生态库(如TensorFlow、PyTorch)成为AI开发的首选语言。但Java作为企业级应用的基石,其在生产环境部署、性能优化和工程化方面的优势不容忽视。DJL(Deep Java Library)的出现完美填补了Java在深度学习领域的空白,它提供了一套统一的API,允许开发者无缝对接主流深度学习框架,将AI模型高效部署到Java生态中。本文将通过手写数字识别的完整流程,深入解析DJL框架的核心机制与应用实践。
236 3
|
4月前
|
缓存 监控 搜索推荐
【实战解析】smallredbook.item_get_video API:小红书视频数据获取与电商应用指南
本文介绍小红书官方API——`smallredbook.item_get_video`的功能与使用方法。该接口可获取笔记视频详情,包括无水印直链、封面图、时长、文本描述、标签及互动数据等,并支持电商场景分析。调用需提供`key`、`secret`和`num_iid`参数,返回字段涵盖视频链接、标题、标签及用户信息等。同时,文章提供了电商实战技巧,如竞品监控与个性化推荐,并列出合规注意事项及替代方案对比。最后解答了常见问题,如笔记ID获取与视频链接时效性等。
|
7月前
|
人工智能 搜索推荐 API
Cobalt:开源的流媒体下载工具,支持解析和下载全平台的视频、音频和图片,支持多种视频质量和格式,自动提取视频字幕
cobalt 是一款开源的流媒体下载工具,支持全平台视频、音频和图片下载,提供纯净、简洁无广告的体验
1060 9
Cobalt:开源的流媒体下载工具,支持解析和下载全平台的视频、音频和图片,支持多种视频质量和格式,自动提取视频字幕
|
5月前
|
机器学习/深度学习 算法 搜索推荐
机器学习“捷径”:自动特征工程全面解析
​ 在机器学习项目中,特征工程是影响模型性能的关键步骤。它通过从原始数据中提取出更有用的特征,帮助模型更好地捕捉数据中的模式。然而,传统的特征工程过程往往需要大量的领域知识和实验调整,是一项耗时费力的工作。 近年来,自动特征工程(Automated Feature Engineering)技术的兴起,为这一问题提供了新的解决方案。它旨在通过自动化方法从数据中生成和选择最优特征,使得特征工程过程更加高效。本文将详细介绍自动特征工程的基本概念、常用技术、工具,并通过代码示例展示其实际应用。
|
6月前
|
数据采集 XML API
深入解析BeautifulSoup:从sohu.com视频页面提取关键信息的实战技巧
深入解析BeautifulSoup:从sohu.com视频页面提取关键信息的实战技巧
|
8月前
|
数据采集 JSON 数据格式
深入解析:使用Python爬取Bilibili视频
本文介绍了如何使用Python编写脚本自动化下载Bilibili视频。通过requests等库获取视频和音频URL,使用ffmpeg合并音视频文件,最终实现高效下载。注意遵守网站爬虫政策和法律法规。
1047 4
|
7月前
|
机器学习/深度学习 人工智能 算法
机器学习与深度学习:差异解析
机器学习与深度学习作为两大核心技术,各自拥有独特的魅力和应用价值。尽管它们紧密相连,但两者之间存在着显著的区别。本文将从定义、技术、数据需求、应用领域、模型复杂度以及计算资源等多个维度,对机器学习与深度学习进行深入对比,帮助您更好地理解它们之间的差异。
|
9月前
|
数据安全/隐私保护 流计算 开发者
python知识点100篇系列(18)-解析m3u8文件的下载视频
【10月更文挑战第6天】m3u8是苹果公司推出的一种视频播放标准,采用UTF-8编码,主要用于记录视频的网络地址。HLS(Http Live Streaming)是苹果公司提出的一种基于HTTP的流媒体传输协议,通过m3u8索引文件按序访问ts文件,实现音视频播放。本文介绍了如何通过浏览器找到m3u8文件,解析m3u8文件获取ts文件地址,下载ts文件并解密(如有必要),最后使用ffmpeg合并ts文件为mp4文件。
357 1
|
9月前
|
机器学习/深度学习 编解码 算法
深入解析MaxFrame:关键技术组件及其对视频体验的影响
【10月更文挑战第12天】随着流媒体服务和高清视频内容的普及,用户对于视频质量的要求越来越高。为了满足这些需求,许多技术被开发出来以提升视频播放的质量。其中,MaxFrame是一种旨在通过一系列先进的图像处理算法来优化视频帧的技术。本文将深入探讨构成MaxFrame的核心组件,包括运动估计、超分辨率重建以及时间插值算法,并讨论这些技术如何协同工作以改善视频播放效果。
133 1

热门文章

最新文章

推荐镜像

更多
  • DNS