【ICML开杠】机器学习研究的四大危机

简介: 近期,来自CMU和斯坦福的Zachary C. Lipton和Jacob Steinhardt两位研究员为顶会ICML举办的Machine Learning: The Great Debate发表文章,并指出现在机器学习研究中的四大危机:混淆阐述与推测、无法明确得到较好结果的原因、数学公式堆积以及语言误用。

【新智元导读】近期,来自CMU和斯坦福的Zachary C. Lipton和Jacob Steinhardt两位研究员为顶会ICML举办的Machine Learning: The Great Debate发表文章,并指出现在机器学习研究中的四大危机:混淆阐述与推测、无法明确得到较好结果的原因、数学公式堆积以及语言误用。

学术界在大家的印象里一般是很严肃的,但近期AI顶会ICML在斯德哥尔摩举办了一个辩论会—Machine Learning: The Great Debates (ML-GD),专供各家学者、研究人员积极探讨领域内技术的现状、瓶颈及对社会的影响。

有AI小网红之称的Zachary C.Lipton携手斯坦福研究员Jacob Steinhardt发表了参会的论文《Troubling Trends in Machine Learning Scholarship》,并发推文,引发了热烈的讨论。


image

观点提出背景

机器学习(ML)研究人员正在致力于有关“数据驱动算法”知识的创建和传播。据研究,许多研究人员都渴望实现以下目标:
理论性阐述可学习内容
深入理解经验严谨的实验
构建一个有高预测精度的工作系统

虽然确定哪些知识值得探究是很主观的,但是一旦主题确定,当论文为读者服务时,它对社区最有价值,它能创造基础知识并尽可能清楚地进行阐述。

什么样的论文更适合读者呢?我们可以列出如下特征:这些论文应该
(i)提供直观感受以帮助读者理解,但应明确区别于已证明的强有力结论;
(ii)阐述考量和排除其他假设的实证调查 ;
(iii)明确理论分析与直觉或经验之间的关系 ;
(iv)利用语言帮助读者理解,选择术语以避免误解或未经证实的内容,避免与其他定义冲突,或与其他相关但不同的概念混淆。

机器学习研究中的四大危机

image

尽管机器学习最近取得了一些进展,但这些“理想”状态往往与现实背离。在这篇文章中,我们将重点放在以下四种模式上,这些模式在ML学术(schoolar-ship)中似乎是最流行的:

  1. 无法区分客观阐述和推测。
  2. 无法确定得到较好结果的原因,例如,当实际上是因为对超参数微调而获得好效果的时候,却强调不必要修改神经网络结构。
  3. 数学公式堆积:使用令人混淆的数学术语而不加以澄清,例如混淆技术与非技术概念。
  4. 语言误用,例如,使用带有口语的艺术术语,或者过多的使用既定的技术术语。

虽然这些模式背后的原因是不确定的,但会导致社区的迅速扩张、评阅的人数不足,以及学术和短期成功衡量标准(如文献数量、关注度、创业机会)之间经常出现的不平衡。虽然每种模式都提供了相应的补救措施(但不建议这么做),我们还将讨论一些关于社区如何应对这些趋势的推测性建议。

有缺陷的学术研究可能会误导大众,并阻碍学术未来的研究。实际上,这些问题有许多是在人工智能的历史(更广泛地说,是在科学研究)中循环出现的。1976年,Drew Mc-Dermott[1]指责人工智能社区放弃了自律,并预言“如果我们不能批判自己,别人就会帮我们解决问题”。

类似的讨论在整个80年代、90年代和2008年都反复出现[2,3,4]。在心理学等其他领域,糟糕的实验标准削弱了人们对该学科权威的信任。当今机器学习的强劲潮流归功于迄今为止大量严谨的研究,包括理论研究[5,6,7]和实证研究[8,9,10]。通过提高清晰明了的科学思维和交流,我们可以维持社区目前所享有的信任和投资。

总结

image

可能有人会认为这些问题可以通过自律、自我纠正来改善。这个观点虽然是正确的,但是机器学习社区需要反复讨论如何构建合理的学术标准以实现这种自我修正。

文献原文地址:
https://www.dropbox.com/s/ao7c090p8bg1hk3/Lipton%20and%20Steinhardt%20-%20Troubling%20Trends%20in%20Machine%20Learning%20Scholarship.pdf?dl=0

参考文献:
[1]Drew McDermott.Artificial Intelligence meets natural stupidity. ACM SIGART Bulletin,(57):4-9,1976.
[2]Timothy G Armstrong, Alistair Moffat, William Webber, and Justin Zobel. Improvements that don’t add up: ad-hoc retrieval results since 1998. In Proceedings of the 18th ACM conference on Information and knowledge management. ACM, 2009.
[3]Paul R Cohen and Adele E Howe. How evaluation guides ai research: The message still counts more than the medium. AI magazine , 9(4):35, 1988.
[4]RE Korf. Does deep blue use articial intelligence? ICGA Journal , 20(4):243{245, 1997.
[5]Leon Bottou and Olivier Bousquet. The tradeos of large scale learning. In Advances in neural information processing systems (NIPS) , 2008.
[6]John Duchi, Elad Hazan, and Yoram Singer. Adaptive subgradient methods for online learning and stochastic optimization. Journal of Machine Learning Research (JMLR) , 12(Jul), 2011.
[7]Yoav Freund and Robert E Schapire. A decision-theoretic generalization of on-line learning and an application to boosting. Journal of computer and system sciences , 55(1):119{139, 1997.
[8]James Bergstra and Yoshua Bengio. Random search for hyper-parameter optimization. Journal of Machine Learning Research (JMLR) , 13(Feb), 2012.
[9]Xavier Glorot and Yoshua Bengio. Understanding the diculty of training deep feedforward neural networks. In International conference on articial intelligence and statistics (AISTATS) ,2010.
[10]Kevin Jarrett, Koray Kavukcuoglu, Yann LeCun, et al. What is the best multi-stage architecture for object recognition? In International Conference on Computer Vision (ICCV) . IEEE, 2009.

原文发布时间为:2018-07-13
本文来自云栖社区合作伙伴新智元,了解相关信息可以关注“AI_era”。
原文链接:【ICML开杠】机器学习研究的四大危机

相关文章
|
8月前
|
机器学习/深度学习 算法 数据可视化
可解释性机器学习:基于随机森林和Ceteris-paribus的乳腺癌早期诊断研究
可解释性机器学习:基于随机森林和Ceteris-paribus的乳腺癌早期诊断研究
323 1
|
7月前
|
机器学习/深度学习 数据采集 搜索推荐
机器学习在智能推荐系统中的个性化算法研究
机器学习在智能推荐系统中的个性化算法研究
|
2月前
|
机器学习/深度学习
自动化机器学习研究MLR-Copilot:利用大型语言模型进行研究加速
【10月更文挑战第21天】在科技快速发展的背景下,机器学习研究面临诸多挑战。为提高研究效率,研究人员提出了MLR-Copilot系统框架,利用大型语言模型(LLM)自动生成和实施研究想法。该框架分为研究想法生成、实验实施和实施执行三个阶段,通过自动化流程显著提升研究生产力。实验结果显示,MLR-Copilot能够生成高质量的假设和实验计划,并显著提高任务性能。然而,该系统仍需大量计算资源和人类监督。
43 4
|
5月前
|
机器学习/深度学习 存储 分布式计算
Hadoop与机器学习的融合:案例研究
【8月更文第28天】随着大数据技术的发展,Hadoop已经成为处理大规模数据集的重要工具。同时,机器学习作为一种数据分析方法,在各个领域都有着广泛的应用。本文将介绍如何利用Hadoop处理大规模数据集,并结合机器学习算法来挖掘有价值的信息。我们将通过一个具体的案例研究——基于用户行为数据预测用户留存率——来展开讨论。
379 0
|
6月前
|
机器学习/深度学习 人工智能 API
在人工智能和机器学习的领域中,语音识别(Speech Recognition,SR)是一个重要的研究方向。它旨在将人类的语音转换为计算机可读的文本。
在人工智能和机器学习的领域中,语音识别(Speech Recognition,SR)是一个重要的研究方向。它旨在将人类的语音转换为计算机可读的文本。
|
8月前
|
机器学习/深度学习 边缘计算 人工智能
利用机器学习优化数据中心能效的研究
【5月更文挑战第21天】 在数据中心运营的成本结构中,能源消耗占据了显著的比例。随着计算需求的不断增长,如何在保持高性能的同时降低能耗成为一大挑战。本文通过探索机器学习技术在数据中心能源管理中的应用,提出了一种新的能效优化框架。该框架采用预测算法动态调整资源分配,并通过仿真实验证明其在降低能耗和提高资源利用率方面的有效性。研究结果不仅对理解数据中心能源消耗模式具有理论意义,也为实际操作提供了可行的节能策略。
|
8月前
|
机器学习/深度学习 资源调度 算法
利用机器学习优化数据中心能效的策略研究
【4月更文挑战第28天】 在数据中心设计和运营中,能源效率已经成为一个核心议题。随着计算需求的不断增长,数据中心的能耗问题愈发凸显,而传统的节能方法逐渐显得力不从心。本文旨在探讨如何通过机器学习技术提升数据中心的能源效率,降低运营成本,并对环境影响最小化。文中详细分析了机器学习在数据中心制冷管理、资源调度、故障预测及维护等方面的应用,并提出了一套综合策略,以期达到智能化管理和节能减排的双重目标。
|
8月前
|
机器学习/深度学习 存储 人工智能
利用机器学习优化数据中心能效的策略研究
【5月更文挑战第30天】 在信息技术日益发展的当下,数据中心作为其支撑的基础设施之一,承担着处理和存储海量数据的重要任务。随着数据中心规模的扩张和计算需求的增加,如何在保证性能的同时降低能耗成为了业界关注的焦点。本文通过引入机器学习技术,探讨了数据中心能效优化的新方法。文中首先概述了数据中心能效的重要性及其面临的挑战,随后详细介绍了机器学习在数据中心能效管理中的应用方式,包括预测模型的构建、能源消耗模式的分析以及动态调整策略的实施。最后,通过一系列实验验证了所提策略的有效性,并与传统方法进行了对比分析。
|
8月前
|
机器学习/深度学习 安全 网络安全
利用机器学习优化数据中心能效的研究数字堡垒的构建者:网络安全与信息安全的深层探索
【5月更文挑战第29天】在云计算和大数据时代,数据中心的能效问题成为关键挑战之一。本文通过集成机器学习技术与现有数据中心管理策略,提出了一种新型的智能优化框架。该框架能够实时分析数据中心的能耗模式,并自动调整资源分配,以达到降低能耗的目的。研究结果表明,应用机器学习算法可以显著提升数据中心的能源使用效率,同时保持服务质量。
|
8月前
|
机器学习/深度学习 数据采集 算法
利用机器学习优化数据中心能效的研究
【5月更文挑战第25天】 在云计算和大数据的背景下,数据中心作为核心基础设施,其能效问题受到了广泛关注。传统的数据中心能效管理多依赖静态阈值和人工调整,难以适应负载动态变化的需求。本文提出了一个基于机器学习的框架来优化数据中心的能效。我们使用历史数据训练模型,以预测不同工作负载下的最优资源配置。实验结果表明,该框架能够有效降低能耗同时保证服务性能,为数据中心能效管理提供了一种智能化的解决方案。
下一篇
开通oss服务