关于机器学习你必须了解的十个真相

简介: 作者从非专业人士的角度对人工智能常见的误解进行了解释说明。

作为一个经常向非专业人士解释机器学习的人,我整理了以下十点内容作为对机器学习的一些解释说明。

  1. 机器学习意味着从数据中学习;而AI则是一个时髦的词。机器学习并不像天花乱坠的宣传那样:通过向适当的学习算法提供适当的训练数据,你可以解决无数的难题。把它称之为AI吧,如果这有助于销售你的AI系统的话。但你要知道,AI只是一个时髦的词,这只代表了人们对它的期望而已。
  2. 机器学习主要涉及到数据和算法,但最主要的还是数据。机器学习算法特别是深度学习的进步,有很多令人兴奋的地方。但数据是使机器学习成为可能的关键因素。机器学习可以没有复杂的算法,但不能没有好的数据
  3. 除非你有大量的数据,否则你应该坚持使用简单的模型。机器学习根据数据中的模式来训练模型,探索由参数定义的可能模型的空间。如果参数空间太大,就会对训练数据过度拟合,并训练出一个不能使自己一般化的模型。如果要对此做详细解释的话,需要进行更多的数学计算,而你应该把这一点当作为一个准则,让你的模型尽可能得简单。
  4. 机器学习的质量与训练所用数据的质量强相关。俗话说“你往计算机输入一堆垃圾,输出的一定也是一堆垃圾数据”,虽然这句话的出现早于机器学习,但这恰恰是机器学习存在的关键限制。机器学习只能发现训练数据中存在的模式。对于监督机器学习任务来说(例如分类),你需要一个健壮的、正确标记的、丰富的训练数据集。
  5. 机器学习只有在训练数据具有代表性的前提下才会起作用。正如基金招股说明书警告的那样“过去的表现不能保证未来的结果”。机器学习也应该发一个类似的警告申明:它仅能基于与训练数据相同分布的数据才能工作。因此,需警惕训练数据和生产数据之间的偏差,并经常性地重复训练模型,这样才能保证其不会过时。
  6. 机器学习大部分的工作是数据转换。在机器学习技术天花乱坠的宣传下,你可能会认为机器学习所做的主要是选择和调整算法。但现实却是平淡无奇的:你大部分的时间和精力都将花在数据清理和特征工程上,也就是将原始特征转换为能更好地代表数据信号的特征。
  7. 深度学习是一场革命性的进步,但并不是灵丹妙药。由于机器学习在很多领域都得到了应用与发展,因此深度学习也被宣传得天花乱坠。此外,深度学习促使一些传统上通过特征工程进行的工作变得自动化,特别是对于图像和视频数据。但深度学习并不是灵丹妙药。没有现成的可以让你使用,你仍然需要投入大量的精力去清理和转换数据。
  8. 机器学习系统很容易受到操作员错误的影响。向NRA道歉,“机器学习算法不会杀人,是人在杀人”。当机器学习系统出现故障时,很少是因为机器学习算法存在问题。更有可能的情况是人为的错误被引入了到训练数据中,从而产生偏差或其他的系统错误。我们应始终持怀疑的态度,并采用适用于软件工程学的方式来对待机器学习。
  9. 机器学习可能会在无意中创造了一个自我实现的预言。在机器学习的许多应用中,你今天所做的决策会影响明天收集的训练数据。一旦机器学习系统将偏差融入到模型中,它可以会继续生成偏差增强了的新训练数据。 而且,一些偏差可能会毁掉人们的生活。请负责任一点:不要创造自我实现的预言。
  10. AI不会自我觉醒、造反并毁灭人性。相当多的人似乎是从科幻电影中得到有关人造智能的概念的。我们应该从科幻小说中得到启发,但并不能这么傻,把小说误认为是现实。从有意识的邪恶人类到无意识的有偏差的机器学习模型,有太多的现实和危险需要担心。所以你可以不用担心SkyNet和“superintelligence”(译者注:SkyNet和superintelligence分别是科幻电影和科幻小说)。

机器学习涉及到的内容远远超过我上面提到的十点说明。希望这些介绍性的内容对非专业人士有用。

文章原标题《10 Things Everyone Should Know About Machine Learning》,作者:Daniel Tunkelang,译者:夏天,审校:主题曲。

文章为简译,更为详细的内容,请查看原文

相关文章
|
机器学习/深度学习 自然语言处理 算法
做了 5 年机器学习研究,我发现了这 7 个真相
在Mindsdb从事 3 年自动机器学习工作后,我辞职了,至少我不会在短时间内从事任何与机器学习相关的职业工作。掐指一算,我已经做了 5 年机器学习研究,但直到今天,我才终于搞清楚了很多自己之前不知道的事物,甚至我还可能觉察到一些别人不知道的东西。
176 0
|
21天前
|
机器学习/深度学习 算法 数据挖掘
K-means聚类算法是机器学习中常用的一种聚类方法,通过将数据集划分为K个簇来简化数据结构
K-means聚类算法是机器学习中常用的一种聚类方法,通过将数据集划分为K个簇来简化数据结构。本文介绍了K-means算法的基本原理,包括初始化、数据点分配与簇中心更新等步骤,以及如何在Python中实现该算法,最后讨论了其优缺点及应用场景。
65 4
|
17天前
|
机器学习/深度学习 算法 数据挖掘
C语言在机器学习中的应用及其重要性。C语言以其高效性、灵活性和可移植性,适合开发高性能的机器学习算法,尤其在底层算法实现、嵌入式系统和高性能计算中表现突出
本文探讨了C语言在机器学习中的应用及其重要性。C语言以其高效性、灵活性和可移植性,适合开发高性能的机器学习算法,尤其在底层算法实现、嵌入式系统和高性能计算中表现突出。文章还介绍了C语言在知名机器学习库中的作用,以及与Python等语言结合使用的案例,展望了其未来发展的挑战与机遇。
36 1
|
26天前
|
机器学习/深度学习 自然语言处理 算法
深入理解机器学习算法:从线性回归到神经网络
深入理解机器学习算法:从线性回归到神经网络
|
1月前
|
机器学习/深度学习 人工智能 算法
【手写数字识别】Python+深度学习+机器学习+人工智能+TensorFlow+算法模型
手写数字识别系统,使用Python作为主要开发语言,基于深度学习TensorFlow框架,搭建卷积神经网络算法。并通过对数据集进行训练,最后得到一个识别精度较高的模型。并基于Flask框架,开发网页端操作平台,实现用户上传一张图片识别其名称。
76 0
【手写数字识别】Python+深度学习+机器学习+人工智能+TensorFlow+算法模型
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
【MM2024】阿里云 PAI 团队图像编辑算法论文入选 MM2024
阿里云人工智能平台 PAI 团队发表的图像编辑算法论文在 MM2024 上正式亮相发表。ACM MM(ACM国际多媒体会议)是国际多媒体领域的顶级会议,旨在为研究人员、工程师和行业专家提供一个交流平台,以展示在多媒体领域的最新研究成果、技术进展和应用案例。其主题涵盖了图像处理、视频分析、音频处理、社交媒体和多媒体系统等广泛领域。此次入选标志着阿里云人工智能平台 PAI 在图像编辑算法方面的研究获得了学术界的充分认可。
【MM2024】阿里云 PAI 团队图像编辑算法论文入选 MM2024
|
26天前
|
机器学习/深度学习 算法
深入探索机器学习中的决策树算法
深入探索机器学习中的决策树算法
34 0
|
27天前
|
机器学习/深度学习 算法 Python
机器学习入门:理解并实现K-近邻算法
机器学习入门:理解并实现K-近邻算法
32 0
|
2月前
|
机器学习/深度学习 算法 Java
机器学习、基础算法、python常见面试题必知必答系列大全:(面试问题持续更新)
机器学习、基础算法、python常见面试题必知必答系列大全:(面试问题持续更新)
|
2月前
|
机器学习/深度学习 算法 决策智能
【机器学习】揭秘深度学习优化算法:加速训练与提升性能
【机器学习】揭秘深度学习优化算法:加速训练与提升性能