机器学习到底能替人干哪些工作?《科学》列出了8条评估标准

简介:
本文来自AI新媒体量子位(QbitAI)

5fb74b664cc752ef5fca4ad336d64296eb496e73

对于AI会取代哪些人类工作的猜测,也许可以暂时停一停了。

最近,两位来自MIT和CMU的研究者在一篇论文中提出了一种预测那些“脆弱“工作的方式。他们认为,机器学习并不代表人类工作的终结,但它会对经济和人类工作的方式产生极大影响。

根据自己对于机器学习系统当下和未来能力的理解,这两位研究者列出了8条主要标准,来评估一项任务是否适合机器学习。他们的文章发表在周四的《科学》上。

640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1

 Erik Brynjolfsson

文章的共同作者之一、MIT斯隆管理学院教授Brynjolfsson在接受CNBC采访时说,高管们可以用这些标准来对自己机构内的任何一项工作进行评估,而政策的制定者们同样可以根据这些问题来判断哪些职业最容易受到自动化影响。CMU计算机科学教授Tom Mitchell是另一位作者。

4c604b526344ca0e965ff554f243de8cae31ec44

 Tom Mitchell

“整个工作都适合或不适合机器学习的情况非常少见,但在某种工作之中,或许有几项任务是适合的。” Brynjolfsson说。论文的主要前提之一就是,我们离所谓“通用人工智能”还差得很远,机器不能把人类能干的所有事都办了。

Brynjolfsson还说,老板们将要面临的挑战是,如何将那些工作“解绑”,依据是否能被自动化将它们进行归类,然后“重新绑定”成全新的工作。

这些问题中列出的条件,包括“不需要复杂、抽象推理的任务”、“不需要与人类进行细致、广泛对话式交互的任务”、“为了完成任务不需要长期计划”等等。使用者根据这些条件来判断符合或不符合的程度,最后加在一起算总分。

那么,究竟哪些任务最适合由机器完成?主要看这些因素:

标记了界定明确的输入和输出,能学习函数将其对应起来的任务

这些任务包括分类(比如标记狗的品种或根据可能的癌症种类标记医疗记录)和预测(分析一份贷款申请来预测未来的违约可能性)。不过机器在这里学会的只是一种统计学关联,而未必是因果关系。

存在大型数据集,或可以创建包含输入-输出对的大型数据集的任务

可获取的训练样本越多,学习结果就越精确。DNN有一个值得注意的特性,在很多领域里,它的性能并不会随着训练样本数量的增加而逼近完美。能在训练数据中抓出所有相关的输入特征尤为重要。虽然原则上任何任意函数都能用DNN来表示,但电脑应付不好两样东西:一是训练数据中模拟的、持续的多余偏见,二是会忽略包含了机器观测不到变量的规律。不过,还有不少创造数据的方法,比如监测已有过程和交互行为、雇佣人类来对部分数据进行明确标注或是创建一个完整的全新数据集,或是模拟问题相关的场景。

有着明确的目标和度量标准、提供清晰反馈的任务

当我们可以明确地描述目标时——即便我们未必能确定达成目标的最佳过程——机器学习能做得非常不错。这与早期达成自动化的途径形成了鲜明对比。抓取个人输入-输出决策的能力(即便模仿这些个人的学习过程被允许)可能不会导致最佳的全系统表现,因为人类本身就会做出不完美的决策。因而,有明确界定的全系统表现(比如优化全城范围内而不是某个交叉路口的交通流量)度量标准就为机器学习系统提供了黄金准则。当训练数据是根据这种黄金准则来进行标注并以此确定目标时,机器学习的威力特别大。

不需要依靠广泛背景知识或常识的长逻辑链或推理过程的任务

在学习数据中的经验性联系时,机器学习系统非常强大;但当任务需要依赖于常识或背景知识的长推理链条或复杂计划时,它就变得不那么好使。吴恩达的“一秒钟原则”表明,机器学习在需要快速反应和提供即时反馈的电子游戏上做得非常好,但在需要依靠对于世界的背景知识、以及对于久远事件的记忆来做出最优选择的游戏上就做得没那么好。

此类事件的例外是围棋和国际象棋,因为这些智力性游戏可以以完美的准确度快速模拟,数百万完美自标注的训练样本可以被自动采集。然而,在真实世界的大多数领域,完美的模拟太少了。

不需要对于决策过程进行细致解释的任务

数亿数值权重与它们的人工神经元相连,大型神经网络根据它们进行细微调整来学习决策。要对人类解释这种决策的原因会十分困难,因为DNN通常不会像人类一样使用中间抽象过程。虽然对于可自主解释AI系统的研究工作正在进行中,但现在这一领域的系统在这方面做得依然比较差。

举个例子,虽然计算机在诊断癌症或肺炎种类上可以比人类专家做得更好,与人类医生相比,它们解释得出诊断结果原因的能力要差得多。而对于很多可感知的任务,人类则并不善于解释,比如,他们如何从听到的声音中识别出词语。

能够容忍错误、不需要可证实的正确度或最优解决方案的任务

几乎所有的机器学习算法都是从统计学和概率上得出解决方案的。因而,要把它们训练到百分之百的准确度几乎不可能。即使是最好的语音识别、物体识别和疾病诊断系统也会犯错误。对于错误的容忍度是一条非常重要的标准。

不会随时间迅速变化的任务

一般而言,机器学习算法只会在未来的测试样本分布于训练样本分布近似时才会干得漂亮。如果这些分布发生变化,再训练就不可避免,因而,相对于新训练数据的获取率,最终的成功更依赖于变化率(比如,垃圾邮件过滤器在过滤商业垃圾邮件上做得很好,部分是因为收到新邮件的比率要高于垃圾邮件变化的比率)。

不需要专业的灵巧、运动技能或机动性的任务

与人类相比,在非结构化环境和任务中处理体力操作上,机器人仍然十分笨拙。这其实大部分不是机器学习的问题,而是最新机器人机械化控制器的成果。

在机器学习将会如何影响劳动和工资方面,这篇论文同样考虑了其中经济因素的潜在影响。比如,在一些案例中,计算机将会取代人类。

在一些任务上,自动化的价格可能会降低,这可能会影响需求、雇佣和总投入。

作者指出机器学习的影响可能会超过一些之前已经被广泛应用的发明,比如电力和内燃机。这些进步提高了总生产力,解放了互补性创新的浪潮。

“进行了正确互补性投入(如技能、资源和基础设施)的个人、商业和社会最终将会繁荣起来。“作者写道,”而其他人不只失去了分一杯羹的机会,在某些情况下,他们还会过得越来越糟。“

《科学》原文:
What can machine learning do? Workforce implications
http://science.sciencemag.org/content/358/6370/1530.full

参考:
https://www.cnbc.com/2017/12/21/how-to-tell-whether-machines-can-do-your-job.html

本文作者:唐旭
原文发布时间:2017-12-24 
相关文章
|
7天前
|
机器学习/深度学习
机器学习模型评估指标详解
【7月更文挑战第14天】选择合适的评估指标对于准确评估机器学习模型的性能至关重要。在实际应用中,需要根据具体任务场景和数据特点,综合考虑多种评估指标,以全面评估模型的性能。同时,还需要注意评估指标的局限性,避免单一指标带来的误导。
|
10天前
|
机器学习/深度学习 数据采集 算法
探索机器学习在金融风险评估中的应用
【7月更文挑战第12天】本文深入探讨了机器学习技术在金融风险评估领域内的应用及其带来的革新。通过分析传统方法的局限性,文章阐述了如何利用机器学习模型提高风险预测的准确性和效率。本文不仅详细介绍了机器学习算法的选择与优化过程,还讨论了实施过程中的挑战与解决方案,并展望了这一技术的未来发展。
|
23天前
|
机器学习/深度学习 人工智能 算法
超强,必会的机器学习评估指标
```markdown # 机器学习模型评估指标概览 机器学习模型评估涉及多种指标,用于量化模型在分类和回归任务中的表现。关键指标包括: - **分类**: - **准确率**: 简单易懂,但在类别不平衡时可能误导。 - **精确率**: 衡量正类预测的准确性,适用于误报代价高的场景。 - **召回率**: 评估正类识别的完整性,适用于漏报代价高的场景。 - **F1分数**: 精确率和召回率的调和平均,平衡两者。 - **AUC**: 衡量模型区分正负类的能力,适用于不平衡数据。 - **混淆矩阵**: 提供详细分类结果,用于分析模型错误。
17 0
超强,必会的机器学习评估指标
|
8天前
|
机器学习/深度学习 Serverless Python
`sklearn.metrics`是scikit-learn库中用于评估机器学习模型性能的模块。它提供了多种评估指标,如准确率、精确率、召回率、F1分数、混淆矩阵等。这些指标可以帮助我们了解模型的性能,以便进行模型选择和调优。
`sklearn.metrics`是scikit-learn库中用于评估机器学习模型性能的模块。它提供了多种评估指标,如准确率、精确率、召回率、F1分数、混淆矩阵等。这些指标可以帮助我们了解模型的性能,以便进行模型选择和调优。
|
1月前
|
机器学习/深度学习 人工智能 PyTorch
人工智能平台PAI产品使用合集之只进行训练(train)而不进行评估(eval)该如何配置
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
1月前
|
机器学习/深度学习 数据采集 Python
机器学习模型的评估与选择标准
【6月更文挑战第1天】机器学习模型的评估至关重要,包括准确率、召回率、F1值和均方误差等指标。准确率衡量预测正确比例,召回率关注找出所有相关样本的能力,F1值是两者的综合。泛化能力同样重要,防止过拟合和欠拟合。不同场景可能侧重不同指标,如医疗诊断更关注召回率。选择模型需综合考虑多个因素,以实现最佳性能。通过实践和探索,我们可以更好地理解和优化模型评估,推动机器学习进步。
49 2
|
2月前
|
机器学习/深度学习 BI
机器学习模型评估指标总结
机器学习模型评估指标总结
42 2
|
2月前
|
机器学习/深度学习 数据可视化 前端开发
【Python机器学习专栏】机器学习模型评估的实用方法
【4月更文挑战第30天】本文介绍了机器学习模型评估的关键方法,包括评估指标(如准确率、精确率、召回率、F1分数、MSE、RMSE、MAE及ROC曲线)和交叉验证技术(如K折交叉验证、留一交叉验证、自助法)。混淆矩阵提供了一种可视化分类模型性能的方式,而Python的scikit-learn库则方便实现这些评估。选择适合的指标和验证方法能有效优化模型性能。
|
2月前
|
机器学习/深度学习 算法 Python
【Python机器学习专栏】Python中的机器学习评估与度量指标
【4月更文挑战第30天】本文介绍了Python中机器学习模型的评估方法和度量指标。主要包括留出法、交叉验证和自助法等评估方法,以及准确率、精确率、召回率、F1分数、AUC-ROC曲线、MSE、RMSE和R方值等度量指标。选择合适的评估标准对于理解模型性能和适应不同任务至关重要。
|
2月前
|
机器学习/深度学习 数据采集 算法
Python中的机器学习入门:从数据预处理到模型评估
Python中的机器学习入门:从数据预处理到模型评估
244 35