机器学习到底能替人干哪些工作?《科学》列出了8条评估标准

简介:
本文来自AI新媒体量子位(QbitAI)

5fb74b664cc752ef5fca4ad336d64296eb496e73

对于AI会取代哪些人类工作的猜测,也许可以暂时停一停了。

最近,两位来自MIT和CMU的研究者在一篇论文中提出了一种预测那些“脆弱“工作的方式。他们认为,机器学习并不代表人类工作的终结,但它会对经济和人类工作的方式产生极大影响。

根据自己对于机器学习系统当下和未来能力的理解,这两位研究者列出了8条主要标准,来评估一项任务是否适合机器学习。他们的文章发表在周四的《科学》上。

640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1

 Erik Brynjolfsson

文章的共同作者之一、MIT斯隆管理学院教授Brynjolfsson在接受CNBC采访时说,高管们可以用这些标准来对自己机构内的任何一项工作进行评估,而政策的制定者们同样可以根据这些问题来判断哪些职业最容易受到自动化影响。CMU计算机科学教授Tom Mitchell是另一位作者。

4c604b526344ca0e965ff554f243de8cae31ec44

 Tom Mitchell

“整个工作都适合或不适合机器学习的情况非常少见,但在某种工作之中,或许有几项任务是适合的。” Brynjolfsson说。论文的主要前提之一就是,我们离所谓“通用人工智能”还差得很远,机器不能把人类能干的所有事都办了。

Brynjolfsson还说,老板们将要面临的挑战是,如何将那些工作“解绑”,依据是否能被自动化将它们进行归类,然后“重新绑定”成全新的工作。

这些问题中列出的条件,包括“不需要复杂、抽象推理的任务”、“不需要与人类进行细致、广泛对话式交互的任务”、“为了完成任务不需要长期计划”等等。使用者根据这些条件来判断符合或不符合的程度,最后加在一起算总分。

那么,究竟哪些任务最适合由机器完成?主要看这些因素:

标记了界定明确的输入和输出,能学习函数将其对应起来的任务

这些任务包括分类(比如标记狗的品种或根据可能的癌症种类标记医疗记录)和预测(分析一份贷款申请来预测未来的违约可能性)。不过机器在这里学会的只是一种统计学关联,而未必是因果关系。

存在大型数据集,或可以创建包含输入-输出对的大型数据集的任务

可获取的训练样本越多,学习结果就越精确。DNN有一个值得注意的特性,在很多领域里,它的性能并不会随着训练样本数量的增加而逼近完美。能在训练数据中抓出所有相关的输入特征尤为重要。虽然原则上任何任意函数都能用DNN来表示,但电脑应付不好两样东西:一是训练数据中模拟的、持续的多余偏见,二是会忽略包含了机器观测不到变量的规律。不过,还有不少创造数据的方法,比如监测已有过程和交互行为、雇佣人类来对部分数据进行明确标注或是创建一个完整的全新数据集,或是模拟问题相关的场景。

有着明确的目标和度量标准、提供清晰反馈的任务

当我们可以明确地描述目标时——即便我们未必能确定达成目标的最佳过程——机器学习能做得非常不错。这与早期达成自动化的途径形成了鲜明对比。抓取个人输入-输出决策的能力(即便模仿这些个人的学习过程被允许)可能不会导致最佳的全系统表现,因为人类本身就会做出不完美的决策。因而,有明确界定的全系统表现(比如优化全城范围内而不是某个交叉路口的交通流量)度量标准就为机器学习系统提供了黄金准则。当训练数据是根据这种黄金准则来进行标注并以此确定目标时,机器学习的威力特别大。

不需要依靠广泛背景知识或常识的长逻辑链或推理过程的任务

在学习数据中的经验性联系时,机器学习系统非常强大;但当任务需要依赖于常识或背景知识的长推理链条或复杂计划时,它就变得不那么好使。吴恩达的“一秒钟原则”表明,机器学习在需要快速反应和提供即时反馈的电子游戏上做得非常好,但在需要依靠对于世界的背景知识、以及对于久远事件的记忆来做出最优选择的游戏上就做得没那么好。

此类事件的例外是围棋和国际象棋,因为这些智力性游戏可以以完美的准确度快速模拟,数百万完美自标注的训练样本可以被自动采集。然而,在真实世界的大多数领域,完美的模拟太少了。

不需要对于决策过程进行细致解释的任务

数亿数值权重与它们的人工神经元相连,大型神经网络根据它们进行细微调整来学习决策。要对人类解释这种决策的原因会十分困难,因为DNN通常不会像人类一样使用中间抽象过程。虽然对于可自主解释AI系统的研究工作正在进行中,但现在这一领域的系统在这方面做得依然比较差。

举个例子,虽然计算机在诊断癌症或肺炎种类上可以比人类专家做得更好,与人类医生相比,它们解释得出诊断结果原因的能力要差得多。而对于很多可感知的任务,人类则并不善于解释,比如,他们如何从听到的声音中识别出词语。

能够容忍错误、不需要可证实的正确度或最优解决方案的任务

几乎所有的机器学习算法都是从统计学和概率上得出解决方案的。因而,要把它们训练到百分之百的准确度几乎不可能。即使是最好的语音识别、物体识别和疾病诊断系统也会犯错误。对于错误的容忍度是一条非常重要的标准。

不会随时间迅速变化的任务

一般而言,机器学习算法只会在未来的测试样本分布于训练样本分布近似时才会干得漂亮。如果这些分布发生变化,再训练就不可避免,因而,相对于新训练数据的获取率,最终的成功更依赖于变化率(比如,垃圾邮件过滤器在过滤商业垃圾邮件上做得很好,部分是因为收到新邮件的比率要高于垃圾邮件变化的比率)。

不需要专业的灵巧、运动技能或机动性的任务

与人类相比,在非结构化环境和任务中处理体力操作上,机器人仍然十分笨拙。这其实大部分不是机器学习的问题,而是最新机器人机械化控制器的成果。

在机器学习将会如何影响劳动和工资方面,这篇论文同样考虑了其中经济因素的潜在影响。比如,在一些案例中,计算机将会取代人类。

在一些任务上,自动化的价格可能会降低,这可能会影响需求、雇佣和总投入。

作者指出机器学习的影响可能会超过一些之前已经被广泛应用的发明,比如电力和内燃机。这些进步提高了总生产力,解放了互补性创新的浪潮。

“进行了正确互补性投入(如技能、资源和基础设施)的个人、商业和社会最终将会繁荣起来。“作者写道,”而其他人不只失去了分一杯羹的机会,在某些情况下,他们还会过得越来越糟。“

《科学》原文:
What can machine learning do? Workforce implications
http://science.sciencemag.org/content/358/6370/1530.full

参考:
https://www.cnbc.com/2017/12/21/how-to-tell-whether-machines-can-do-your-job.html

本文作者:唐旭
原文发布时间:2017-12-24 
相关文章
|
18天前
|
机器学习/深度学习 数据挖掘
机器学习模型的选择与评估:技术深度解析
【8月更文挑战第21天】机器学习模型的选择与评估是一个复杂而重要的过程。通过深入理解问题、选择合适的评估指标和交叉验证方法,我们可以更准确地评估模型的性能,并选择出最适合当前问题的模型。然而,机器学习领域的发展日新月异,新的模型和评估方法不断涌现。因此,我们需要保持对新技术的学习和关注,不断优化和改进我们的模型选择与评估策略。
|
2月前
|
机器学习/深度学习 算法 数据挖掘
从菜鸟到大师:Scikit-learn库实战教程,模型训练、评估、选择一网打尽!
【7月更文挑战第26天】在数据科学领域, Scikit-learn是初学者通往专家之路的必备工具。
41 5
|
2月前
|
机器学习/深度学习 数据可视化 开发者
视觉的力量!Python 机器学习模型评估,Matplotlib 与 Seaborn 如何助力决策更明智?
【7月更文挑战第23天】在Python机器学习中,模型评估不可或缺。Matplotlib与Seaborn作为数据可视化工具,助力洞察模型性能。Matplotlib基础灵活,构建复杂图表;Seaborn在其上层,简化绘图,提升美观。从折线图追踪损失到条形图对比准确率,两者互补,促进高效决策制定。尽管Matplotlib掌控力强,但Seaborn友好快捷,适于统计图形。结合使用,可将数据转化成深刻见解。
29 6
|
2月前
|
机器学习/深度学习 算法 数据挖掘
从零到精通:Scikit-learn在手,数据分析与机器学习模型评估不再难!
【7月更文挑战第25天】在数据科学中,模型评估是理解模型泛化能力的关键。对新手来说,众多评估指标可能令人困惑,但Scikit-learn简化了这一过程。
39 2
|
24天前
|
机器学习/深度学习 人工智能 运维
机器学习中的模型评估与选择
【8月更文挑战第15天】在机器学习领域,一个关键的挑战是如何从众多模型中选择出最佳者。本文将探讨模型评估的重要性和复杂性,介绍几种主流的模型评估指标,并讨论如何在实际应用中进行有效的模型选择。通过分析不同的评估策略和它们在实际问题中的应用,我们将揭示如何结合业务需求和技术指标来做出明智的决策。文章旨在为读者提供一个清晰的框架,以理解和实施机器学习项目中的模型评估和选择过程。
|
2月前
|
机器学习/深度学习
机器学习模型评估指标详解
【7月更文挑战第14天】选择合适的评估指标对于准确评估机器学习模型的性能至关重要。在实际应用中,需要根据具体任务场景和数据特点,综合考虑多种评估指标,以全面评估模型的性能。同时,还需要注意评估指标的局限性,避免单一指标带来的误导。
|
2月前
|
机器学习/深度学习 数据采集 算法
探索机器学习在金融风险评估中的应用
【7月更文挑战第12天】本文深入探讨了机器学习技术在金融风险评估领域内的应用及其带来的革新。通过分析传统方法的局限性,文章阐述了如何利用机器学习模型提高风险预测的准确性和效率。本文不仅详细介绍了机器学习算法的选择与优化过程,还讨论了实施过程中的挑战与解决方案,并展望了这一技术的未来发展。
|
2月前
|
机器学习/深度学习 算法 数据挖掘
Python数据分析革命:Scikit-learn库,让机器学习模型训练与评估变得简单高效!
【7月更文挑战第27天】在数据驱动时代,Python以丰富的库成为数据科学首选。Scikit-learn因简洁高效而备受青睐,引领数据分析革命。本文引导您使用Scikit-learn简化机器学习流程。首先通过`pip install scikit-learn`安装库。接着使用内置数据集简化数据准备步骤,例如加载Iris数据集。选择合适的模型,如逻辑回归,并初始化与训练模型。利用交叉验证评估模型性能,获取准确率等指标。最后,应用训练好的模型进行新数据预测。Scikit-learn为各阶段提供一站式支持,助力数据分析项目成功。
36 0
|
3月前
|
机器学习/深度学习 人工智能 算法
超强,必会的机器学习评估指标
```markdown # 机器学习模型评估指标概览 机器学习模型评估涉及多种指标,用于量化模型在分类和回归任务中的表现。关键指标包括: - **分类**: - **准确率**: 简单易懂,但在类别不平衡时可能误导。 - **精确率**: 衡量正类预测的准确性,适用于误报代价高的场景。 - **召回率**: 评估正类识别的完整性,适用于漏报代价高的场景。 - **F1分数**: 精确率和召回率的调和平均,平衡两者。 - **AUC**: 衡量模型区分正负类的能力,适用于不平衡数据。 - **混淆矩阵**: 提供详细分类结果,用于分析模型错误。
32 0
超强,必会的机器学习评估指标
|
2月前
|
机器学习/深度学习 Serverless Python
`sklearn.metrics`是scikit-learn库中用于评估机器学习模型性能的模块。它提供了多种评估指标,如准确率、精确率、召回率、F1分数、混淆矩阵等。这些指标可以帮助我们了解模型的性能,以便进行模型选择和调优。
`sklearn.metrics`是scikit-learn库中用于评估机器学习模型性能的模块。它提供了多种评估指标,如准确率、精确率、召回率、F1分数、混淆矩阵等。这些指标可以帮助我们了解模型的性能,以便进行模型选择和调优。
下一篇
DDNS