什么是机器学习(五分钟带你了解人工智能,机器学习,深度学习)

简介: 什么是机器学习(五分钟带你了解人工智能,机器学习,深度学习)

目录


机器学习的含义

概念

机器学习,人工智能,深度学习的关系

机器学习是什么

机器学习的基本思路

机器学习三要素

机器学习训练方法分类

监督学习

非监督学习

强化学习

降维

直觉在高维空间中失效

泛化

机器学习实操的7个步骤

机器学习的难点

总结


正文


机器学习的含义


概念


机器学习研究和构建的是一种特殊算法(而非某一个特定的算法),能够让计算机自己在数据中学习从而进行预测。

所以,机器学习不是某种具体的算法,而是很多算法的统称。


机器学习,人工智能,深度学习的关系


深度学习的灵感来自大脑的结构和功能,即许多神经元的互连。人工神经网络(ANN)是模拟大脑生物结构的算法。

不管是机器学习还是深度学习,都属于人工智能(AI)的范畴。所以人工智能、机器学习、深度学习可以用下面的图来表示:

2.png


机器学习是什么


机器学习的基本思路


1.把现实生活中的问题抽象成数学模型,并且很清楚模型中不同参数的作用

2.利用数学方法对这个数学模型进行求解,从而解决现实生活中的问题

3.评估这个数学模型,是否真正的解决了现实生活中的问题,解决的如何?


机器学习三要素


数据、算法、模型

机器学习研究的是从数据中通过选取合适的算法,自动的归纳逻辑或规则,并根据这个归纳的结果(模型)与新数据来进行预测。


机器学习训练方法分类


监督学习


监督学习的数据比较特殊,举个栗子,比如你在中学学习英语,在老师的帮助下练习英语发音,数据是你的发音和这个发音的对错/准确程度(对错/准确程度是老师告诉你的),然后算法就是你去尝试去模拟数据(发音)的规律,不断根据英语单词的拼写规律来学习发音,最终你学习到了基于拼写及句子的上下文调整发音。


非监督学习


无监督学习的数据中没有人告诉你对错信息,举个栗子,今天老师给你了一个碗,里面有黑米有红米,让你对这个碗里的米分个类,你可能根据颜色分类,也可能根据大小、重要分类,都没有问题,因为老师没说按什么分,对不对这个问题。


强化学习


强化学习更接近生物学习的本质,因此有望获得更高的智能。它关注的是智能体如何在环境中采取一系列行为,从而获得最大的累积回报。通过强化学习,一个智能体应该知道在什么状态下应该采取什么行为。


降维


直觉在高维空间中失效


机器学习中最大的问题是 维数的诅咒。这意味着如果输入是高维的,许多在低维度下正常工作的算法会变得难以处理。由于固定大小的训练集只覆盖了输入空间的一小部分(可能的组合变得巨大),因此随着样本 维度(即特征的数量) 的增长,正确泛化的难度呈指数增加。但这就是机器学习既有必要又有困难的原因。如下图所示,即使从 1-D 过渡到 3-D,分辨出不同样本的工作似乎开始变得越来越难——在高维度上,所有的样本看起来都是一样的。

4.png

这里的问题是,来自三维世界的直觉在高维度上失效。例如高维的橘子,大部分体积都在果皮里,而不是果肉里!


难以置信的是:如果固定数量的样本在高维超立方中均匀分布,并且,如果我们通过将其嵌入超立方中来近似超球面,那么在高维空间中,超立方体的几乎所有体积都在超球体之外。这是个坏消息,因为在机器学习中,一种类型的形状常常通过另一种类型的形状近似。


注意:你可能已经被所有这些“超(hyper)”给弄糊涂了,超立方内部的超球面在二维和三维空间中看起来会像下面这样:

3.png

因此,现在可以理解,构建 2 维或 3 维的分类器很容易。但在高维度上,很难理解发生了什么。反过来,这让设计好的分类器变得困难。事实上,我们经常陷入这样的陷阱:认为收集更多的特征永远不会有害,因为在最坏的情况下,它们不会提供关于类的新信息。但事实上,维度的诅咒带来的问题会超过它们的好处。


建议:下次当考虑添加更多特征时,请考虑当维度变得太大时可能带来的潜在问题。


泛化


泛化就是你学到的规则/模型的普适程度。

举个栗子吧,今天老师让你看了20个西瓜,并告诉你熟不熟,然后给你一个西瓜,问你只看外观,这个西瓜熟不熟,你可能根据以下来判断:

可能你是这么做的:看表皮,你发现20个瓜里面,瓜皮表面光滑、花纹清晰、纹路明显、底面发黄的瓜都是熟的,但是不满足任何一个条件的都是不熟的。

所以你学到的模型如下:如果瓜皮表面光滑、花纹清晰、纹路明显、底面发黄的,就说明是熟瓜;其它的是不熟的瓜。

但是其实有时候,纹路不明显,但其他条件满足的时候也会有一部分是熟的瓜。所以你学到的模型具有一定泛化性能,但不具有很高的泛化性能。


机器学习实操的7个步骤


1.收集数据

2.数据准备(涉及数据清洗等工作)

3.选择一个模型

4.训练

5.评估

6.参数调整

7.预测(开始使用)


机器学习的难点


如果你思考一遍上述流程, 你可能发现一切都很容易, 从数据清洗,特征提取,到模型选择, 事实上这你就错了。 因为机器学习最难的一步 , 这里根本就没提到, 那就是把现实生产生活中的问题, 提炼成一个机器学习问题 。这需要的是你对问题本身的深刻洞察。 有一天也许整个数据清洗到模型选择和交叉验证都自动化了。但始终有一个东西不能完全被机器搞定, 那就是你如何从一个全新的领域, 去提取机器学习可以有助解决的最重要的问题。再有, 无论机器的预测多准确, 它的结果如果不是在解答人的需求, 也是一个没用的或至少不令人喜欢的东西。 比如我发明一个算法能够特别准的预测老人的寿命, 或者根据女生现在的长相推测她80岁的长相, 即使算法十分牛掰, 这样的产品估计也不是客户喜闻乐见的。


总结


我认为机器学习就是AI人工智能的一个关键技能,对准人工智能三大研究内容之一——计算机模仿人类思考(另外两个是对环境的感知和动作的实现)。而机器学习中,除了上述难点外,我认为最重要的是数据的收集与模型的选择,网络上大部分言辞都是偏向于数据收集更重要,但我觉得二者缺一不可,只是现在各类模型已然非常完备,而数据是要从零去收集,相较而言,数据收集确实需要我们花费更多的时间精力去收集。

相关文章
|
7天前
|
机器学习/深度学习 人工智能 物联网
通义灵码在人工智能与机器学习领域的应用
通义灵码不仅在物联网领域表现出色,还在人工智能、机器学习、金融、医疗和教育等领域展现出广泛应用前景。本文探讨了其在这些领域的具体应用,如模型训练、风险评估、医疗影像诊断等,并总结了其提高开发效率、降低门槛、促进合作和推动创新的优势。
通义灵码在人工智能与机器学习领域的应用
|
8天前
|
机器学习/深度学习 人工智能 TensorFlow
人工智能浪潮下的自我修养:从Python编程入门到深度学习实践
【10月更文挑战第39天】本文旨在为初学者提供一条清晰的道路,从Python基础语法的掌握到深度学习领域的探索。我们将通过简明扼要的语言和实际代码示例,引导读者逐步构建起对人工智能技术的理解和应用能力。文章不仅涵盖Python编程的基础,还将深入探讨深度学习的核心概念、工具和实战技巧,帮助读者在AI的浪潮中找到自己的位置。
|
10天前
|
机器学习/深度学习 人工智能 自然语言处理
人工智能与深度学习:探索未来技术的无限可能
在21世纪,人工智能(AI)和深度学习已经成为推动科技进步的重要力量。本文将深入探讨这两种技术的基本概念、发展历程以及它们如何共同塑造未来的科技景观。我们将分析人工智能的最新趋势,包括自然语言处理、计算机视觉和强化学习,并讨论这些技术在现实世界中的应用。此外,我们还将探讨深度学习的工作原理,包括神经网络、卷积神经网络(CNN)和循环神经网络(RNN),并分析这些模型如何帮助解决复杂的问题。通过本文,读者将对人工智能和深度学习有更深入的了解,并能够预见这些技术将如何继续影响我们的世界。
41 7
|
10天前
|
机器学习/深度学习 人工智能 算法
人工智能与机器学习的融合之旅
【10月更文挑战第37天】本文将探讨AI和机器学习如何相互交织,共同推动技术发展的边界。我们将深入分析这两个概念,了解它们是如何互相影响,以及这种融合如何塑造我们的未来。文章不仅会揭示AI和机器学习之间的联系,还会通过实际案例展示它们如何协同工作,以解决现实世界的问题。
|
8天前
|
机器学习/深度学习 人工智能 算法
基于Python深度学习的【垃圾识别系统】实现~TensorFlow+人工智能+算法网络
垃圾识别分类系统。本系统采用Python作为主要编程语言,通过收集了5种常见的垃圾数据集('塑料', '玻璃', '纸张', '纸板', '金属'),然后基于TensorFlow搭建卷积神经网络算法模型,通过对图像数据集进行多轮迭代训练,最后得到一个识别精度较高的模型文件。然后使用Django搭建Web网页端可视化操作界面,实现用户在网页端上传一张垃圾图片识别其名称。
37 0
基于Python深度学习的【垃圾识别系统】实现~TensorFlow+人工智能+算法网络
|
8天前
|
机器学习/深度学习 人工智能 算法
【手写数字识别】Python+深度学习+机器学习+人工智能+TensorFlow+算法模型
手写数字识别系统,使用Python作为主要开发语言,基于深度学习TensorFlow框架,搭建卷积神经网络算法。并通过对数据集进行训练,最后得到一个识别精度较高的模型。并基于Flask框架,开发网页端操作平台,实现用户上传一张图片识别其名称。
29 0
【手写数字识别】Python+深度学习+机器学习+人工智能+TensorFlow+算法模型
|
8天前
|
机器学习/深度学习 人工智能 算法
基于深度学习的【蔬菜识别】系统实现~Python+人工智能+TensorFlow+算法模型
蔬菜识别系统,本系统使用Python作为主要编程语言,通过收集了8种常见的蔬菜图像数据集('土豆', '大白菜', '大葱', '莲藕', '菠菜', '西红柿', '韭菜', '黄瓜'),然后基于TensorFlow搭建卷积神经网络算法模型,通过多轮迭代训练最后得到一个识别精度较高的模型文件。在使用Django开发web网页端操作界面,实现用户上传一张蔬菜图片识别其名称。
47 0
基于深度学习的【蔬菜识别】系统实现~Python+人工智能+TensorFlow+算法模型
|
13天前
|
机器学习/深度学习 人工智能 安全
人工智能与机器学习在网络安全中的应用
人工智能与机器学习在网络安全中的应用
39 0
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
【MM2024】阿里云 PAI 团队图像编辑算法论文入选 MM2024
阿里云人工智能平台 PAI 团队发表的图像编辑算法论文在 MM2024 上正式亮相发表。ACM MM(ACM国际多媒体会议)是国际多媒体领域的顶级会议,旨在为研究人员、工程师和行业专家提供一个交流平台,以展示在多媒体领域的最新研究成果、技术进展和应用案例。其主题涵盖了图像处理、视频分析、音频处理、社交媒体和多媒体系统等广泛领域。此次入选标志着阿里云人工智能平台 PAI 在图像编辑算法方面的研究获得了学术界的充分认可。
【MM2024】阿里云 PAI 团队图像编辑算法论文入选 MM2024
|
29天前
|
机器学习/深度学习 算法 Java
机器学习、基础算法、python常见面试题必知必答系列大全:(面试问题持续更新)
机器学习、基础算法、python常见面试题必知必答系列大全:(面试问题持续更新)

热门文章

最新文章

下一篇
无影云桌面