机器学习到底能替人干哪些工作?《科学》列出了8条评估标准

简介:
本文来自AI新媒体量子位(QbitAI)


对于AI会取代哪些人类工作的猜测,也许可以暂时停一停了。

最近,两位来自MIT和CMU的研究者在一篇论文中提出了一种预测那些“脆弱“工作的方式。他们认为,机器学习并不代表人类工作的终结,但它会对经济和人类工作的方式产生极大影响。

根据自己对于机器学习系统当下和未来能力的理解,这两位研究者列出了8条主要标准,来评估一项任务是否适合机器学习。他们的文章发表在周四的《科学》上。

 Erik Brynjolfsson

文章的共同作者之一、MIT斯隆管理学院教授Brynjolfsson在接受CNBC采访时说,高管们可以用这些标准来对自己机构内的任何一项工作进行评估,而政策的制定者们同样可以根据这些问题来判断哪些职业最容易受到自动化影响。CMU计算机科学教授Tom Mitchell是另一位作者。


 Tom Mitchell

“整个工作都适合或不适合机器学习的情况非常少见,但在某种工作之中,或许有几项任务是适合的。” Brynjolfsson说。论文的主要前提之一就是,我们离所谓“通用人工智能”还差得很远,机器不能把人类能干的所有事都办了。

Brynjolfsson还说,老板们将要面临的挑战是,如何将那些工作“解绑”,依据是否能被自动化将它们进行归类,然后“重新绑定”成全新的工作。

这些问题中列出的条件,包括“不需要复杂、抽象推理的任务”、“不需要与人类进行细致、广泛对话式交互的任务”、“为了完成任务不需要长期计划”等等。使用者根据这些条件来判断符合或不符合的程度,最后加在一起算总分。

那么,究竟哪些任务最适合由机器完成?主要看这些因素:

标记了界定明确的输入和输出,能学习函数将其对应起来的任务

这些任务包括分类(比如标记狗的品种或根据可能的癌症种类标记医疗记录)和预测(分析一份贷款申请来预测未来的违约可能性)。不过机器在这里学会的只是一种统计学关联,而未必是因果关系。

存在大型数据集,或可以创建包含输入-输出对的大型数据集的任务

可获取的训练样本越多,学习结果就越精确。DNN有一个值得注意的特性,在很多领域里,它的性能并不会随着训练样本数量的增加而逼近完美。能在训练数据中抓出所有相关的输入特征尤为重要。虽然原则上任何任意函数都能用DNN来表示,但电脑应付不好两样东西:一是训练数据中模拟的、持续的多余偏见,二是会忽略包含了机器观测不到变量的规律。不过,还有不少创造数据的方法,比如监测已有过程和交互行为、雇佣人类来对部分数据进行明确标注或是创建一个完整的全新数据集,或是模拟问题相关的场景。

有着明确的目标和度量标准、提供清晰反馈的任务

当我们可以明确地描述目标时——即便我们未必能确定达成目标的最佳过程——机器学习能做得非常不错。这与早期达成自动化的途径形成了鲜明对比。抓取个人输入-输出决策的能力(即便模仿这些个人的学习过程被允许)可能不会导致最佳的全系统表现,因为人类本身就会做出不完美的决策。因而,有明确界定的全系统表现(比如优化全城范围内而不是某个交叉路口的交通流量)度量标准就为机器学习系统提供了黄金准则。当训练数据是根据这种黄金准则来进行标注并以此确定目标时,机器学习的威力特别大。

不需要依靠广泛背景知识或常识的长逻辑链或推理过程的任务

在学习数据中的经验性联系时,机器学习系统非常强大;但当任务需要依赖于常识或背景知识的长推理链条或复杂计划时,它就变得不那么好使。吴恩达的“一秒钟原则”表明,机器学习在需要快速反应和提供即时反馈的电子游戏上做得非常好,但在需要依靠对于世界的背景知识、以及对于久远事件的记忆来做出最优选择的游戏上就做得没那么好。

此类事件的例外是围棋和国际象棋,因为这些智力性游戏可以以完美的准确度快速模拟,数百万完美自标注的训练样本可以被自动采集。然而,在真实世界的大多数领域,完美的模拟太少了。

不需要对于决策过程进行细致解释的任务

数亿数值权重与它们的人工神经元相连,大型神经网络根据它们进行细微调整来学习决策。要对人类解释这种决策的原因会十分困难,因为DNN通常不会像人类一样使用中间抽象过程。虽然对于可自主解释AI系统的研究工作正在进行中,但现在这一领域的系统在这方面做得依然比较差。

举个例子,虽然计算机在诊断癌症或肺炎种类上可以比人类专家做得更好,与人类医生相比,它们解释得出诊断结果原因的能力要差得多。而对于很多可感知的任务,人类则并不善于解释,比如,他们如何从听到的声音中识别出词语。

能够容忍错误、不需要可证实的正确度或最优解决方案的任务

几乎所有的机器学习算法都是从统计学和概率上得出解决方案的。因而,要把它们训练到百分之百的准确度几乎不可能。即使是最好的语音识别、物体识别和疾病诊断系统也会犯错误。对于错误的容忍度是一条非常重要的标准。

不会随时间迅速变化的任务

一般而言,机器学习算法只会在未来的测试样本分布于训练样本分布近似时才会干得漂亮。如果这些分布发生变化,再训练就不可避免,因而,相对于新训练数据的获取率,最终的成功更依赖于变化率(比如,垃圾邮件过滤器在过滤商业垃圾邮件上做得很好,部分是因为收到新邮件的比率要高于垃圾邮件变化的比率)。

不需要专业的灵巧、运动技能或机动性的任务

与人类相比,在非结构化环境和任务中处理体力操作上,机器人仍然十分笨拙。这其实大部分不是机器学习的问题,而是最新机器人机械化控制器的成果。

在机器学习将会如何影响劳动和工资方面,这篇论文同样考虑了其中经济因素的潜在影响。比如,在一些案例中,计算机将会取代人类。

在一些任务上,自动化的价格可能会降低,这可能会影响需求、雇佣和总投入。

作者指出机器学习的影响可能会超过一些之前已经被广泛应用的发明,比如电力和内燃机。这些进步提高了总生产力,解放了互补性创新的浪潮。

“进行了正确互补性投入(如技能、资源和基础设施)的个人、商业和社会最终将会繁荣起来。“作者写道,”而其他人不只失去了分一杯羹的机会,在某些情况下,他们还会过得越来越糟。“

《科学》原文:
What can machine learning do? Workforce implications
http://science.sciencemag.org/content/358/6370/1530.full

参考:
https://www.cnbc.com/2017/12/21/how-to-tell-whether-machines-can-do-your-job.html

本文作者:唐旭
原文发布时间:2017-12-24 
相关文章
|
25天前
|
机器学习/深度学习 Python
机器学习中评估模型性能的重要工具——混淆矩阵和ROC曲线。混淆矩阵通过真正例、假正例等指标展示模型预测情况
本文介绍了机器学习中评估模型性能的重要工具——混淆矩阵和ROC曲线。混淆矩阵通过真正例、假正例等指标展示模型预测情况,而ROC曲线则通过假正率和真正率评估二分类模型性能。文章还提供了Python中的具体实现示例,展示了如何计算和使用这两种工具来评估模型。
46 8
|
25天前
|
机器学习/深度学习 算法 UED
在数据驱动时代,A/B 测试成为评估机器学习项目不同方案效果的重要方法
在数据驱动时代,A/B 测试成为评估机器学习项目不同方案效果的重要方法。本文介绍 A/B 测试的基本概念、步骤及其在模型评估、算法改进、特征选择和用户体验优化中的应用,同时提供 Python 实现示例,强调其在确保项目性能和用户体验方面的关键作用。
29 6
|
27天前
|
机器学习/深度学习 算法 UED
在数据驱动时代,A/B 测试成为评估机器学习项目效果的重要手段
在数据驱动时代,A/B 测试成为评估机器学习项目效果的重要手段。本文介绍了 A/B 测试的基本概念、步骤及其在模型评估、算法改进、特征选择和用户体验优化中的应用,强调了样本量、随机性和时间因素的重要性,并展示了 Python 在 A/B 测试中的具体应用实例。
28 1
|
2月前
|
机器学习/深度学习 数据挖掘 Serverless
手把手教你全面评估机器学习模型性能:从选择正确评价指标到使用Python与Scikit-learn进行实战演练的详细指南
【10月更文挑战第10天】评估机器学习模型性能是开发流程的关键,涉及准确性、可解释性、运行速度等多方面考量。不同任务(如分类、回归)采用不同评价指标,如准确率、F1分数、MSE等。示例代码展示了使用Scikit-learn库评估逻辑回归模型的过程,包括数据准备、模型训练、性能评估及交叉验证。
124 1
|
2月前
|
机器学习/深度学习 算法 API
机器学习入门(六):分类模型评估方法
机器学习入门(六):分类模型评估方法
|
3月前
|
机器学习/深度学习 算法 数据挖掘
Python数据分析革命:Scikit-learn库,让机器学习模型训练与评估变得简单高效!
在数据驱动时代,Python 以强大的生态系统成为数据科学的首选语言,而 Scikit-learn 则因简洁的 API 和广泛的支持脱颖而出。本文将指导你使用 Scikit-learn 进行机器学习模型的训练与评估。首先通过 `pip install scikit-learn` 安装库,然后利用内置数据集进行数据准备,选择合适的模型(如逻辑回归),并通过交叉验证评估其性能。最终,使用模型对新数据进行预测,简化整个流程。无论你是新手还是专家,Scikit-learn 都能助你一臂之力。
155 8
|
3月前
|
机器学习/深度学习 数据采集 算法
利用未标记数据的半监督学习在模型训练中的效果评估
本文将介绍三种适用于不同类型数据和任务的半监督学习方法。我们还将在一个实际数据集上评估这些方法的性能,并与仅使用标记数据的基准进行比较。
295 8
|
3月前
|
机器学习/深度学习 算法 数据挖掘
从菜鸟到大师:Scikit-learn库实战教程,模型训练、评估、选择一网打尽!
【9月更文挑战第13天】在数据科学与机器学习领域,Scikit-learn是不可或缺的工具。本文通过问答形式,指导初学者从零开始使用Scikit-learn进行模型训练、评估与选择。首先介绍了如何安装库、预处理数据并训练模型;接着展示了如何利用多种评估指标确保模型性能;最后通过GridSearchCV演示了系统化的参数调优方法。通过这些实战技巧,帮助读者逐步成长为熟练的数据科学家。
134 3
|
4月前
|
机器学习/深度学习 数据挖掘
机器学习模型的选择与评估:技术深度解析
【8月更文挑战第21天】机器学习模型的选择与评估是一个复杂而重要的过程。通过深入理解问题、选择合适的评估指标和交叉验证方法,我们可以更准确地评估模型的性能,并选择出最适合当前问题的模型。然而,机器学习领域的发展日新月异,新的模型和评估方法不断涌现。因此,我们需要保持对新技术的学习和关注,不断优化和改进我们的模型选择与评估策略。
|
5月前
|
机器学习/深度学习 算法 数据挖掘
从菜鸟到大师:Scikit-learn库实战教程,模型训练、评估、选择一网打尽!
【7月更文挑战第26天】在数据科学领域, Scikit-learn是初学者通往专家之路的必备工具。
78 5
下一篇
DataWorks