传送门！ICML2017（国际机器学习大会）最佳论文（附下载）

2018-01-08 1811

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

本文来自AI新媒体量子位（QbitAI）

8月6日，第34届国际机器学习大会（ICML 2017）已在悉尼拉开帷幕。

其中最受关注的论文奖项已公布。

据主办方消息，ICML2017共评审了1676篇论文，收录了434篇，录取率为25.89%。

最佳论文奖由斯坦福大学Pang Wei Koh和Percy Liang的论文Understanding Black-box Predictions via Influence Functions获得。最具时间价值奖则是2007年巴黎南大学和阿尔伯塔大学共同投递的论文Combining Online and Offline Knowledge in UCT。

量子位整理传送如下：

最佳论文奖

论文：Understanding Black-box Predictions via Influence Functions（通过影响函数理解黑箱预测问题）
作者：Pang Wei Koh、Percy Liang
单位：斯坦福大学

摘要：应该如何解释黑箱模型预测环境？在这篇论文中，我们用稳健统计学中的一种经典方法探索模型预测问题。通过学习算法和其背后的训练数据，模型能够识别给定预测最合理的训练点数。为了使影响函数应用在机器学习任务上，我们创建了一种简单且高效的实现方式，它仅需要梯度oracle访问途径和Hessian矢量积。虽然在非凸模型和不可微分模型中这个理论还不成立，但近似影响函数仍能提供有价值的信息。在这篇论文中，我们演示了影响函数在线性模型和卷积神经网络的多种任务的表现，包括理解模型表现、调试模型、检测数据集错误、甚至出创造视觉无法区分的训练集攻击类型。

论文下载地址：http://proceedings.mlr.press/v70/koh17a/koh17a.pdf

最佳论文提名

论文：Lost Relatives of the Gumbel Trick
作者：Matej Balog、Nilesh Tripuraneni、Zoubin Ghahramani、Adrian Weller
单位：剑桥大学、马克斯普朗克智能系统研究所等

摘要：Gumbel技巧是从离散概率分布中抽样或估计其归一化分区函数的方法。该方法取决于以特定方式重复对分布进行随机扰动，每次求解最可能的配置。我们得出了一系列相关的方法，其中Gumbel技巧是其中一种，并且表明新方法在几个设置中具有优越的性能，以及最小的附加计算成本。另外，对于Gum-bel技术来为离散图模型（discrete graphical model）有计算优势，所有配置的Gumbel扰动通常被所谓的低等级扰动（low-rank perturbations）所替代。我们展示了我们新方法的子系列如何适应这种设置，证明了对数分区函数的新的上限和下限，并得出了吉布斯分布（Gibbs distribution）的一系列重要采样器。最后，我们展示了如何通过更简单的Gumbel技巧来简化分析形式，推导出额外的理论结果。

下载地址：http://proceedings.mlr.press/v70/balog17a/balog17a.pdf

论文：Modular Multitask Reinforcement Learning with Policy Sketches
作者：Jacob Andreas、Dan Klein、Sergey Levine
单位：加州大学伯克利分校

摘要：我们描述了一个以policy sketches为指导的多任务深入增强学习的框架。sketches用指定的子任务序列标注任务，提供关于任务之间的高级结构关系的信息，但不是如何实现它们 —— 具体来说，不提供强化学习之前的学习策略抽象工作所使用的详细指导（如中间奖励、子任务完成信号、内在动机）。为了从sketches中学习，我们提出一个将子任务与模块化子政策相关联的模型，并通过将每一个子任务和模块子策略结合起来，并通过在共享子策略之间测试参数，将全部任务特定的策略的奖励最大化。优化是通过解耦合actor-critic训练目标来实现的，这个目标可以帮助学习多个不相似的奖励功能的共同行为。我们评估我们的方法在具有离散和连续控制的三个环境中的有效性，以及仅在完成若干高级次级目标之后才能获得的稀少奖励。实验表明，使用我们的方法学习sketches，比现有的学习特定任务或共享策略的技术具有更好的表现，同时可以自然归纳出可重新组合的可解释的原始行为库，以快速适应新任务。

下载地址：http://proceedings.mlr.press/v70/andreas17a/andreas17a.pdf

论文：A Unified Maximum Likelihood Approach for Estimating Symmetric Properties of Discrete Distributions
作者：Jayadev Acharya、Hirakendu Das、Alon Orlitsky、Ananda Suresh
单位：康奈尔大学、雅虎等

摘要：许多应用中都出现了对称分布特性，例如支持大小、支持覆盖率、熵值和均匀性等。最近，研究人员应用了不同的估计量和分析工具，来为每个属性推导渐进的样本最优近似。我们的研究表明，单一、简单、插件式的估计量：profile maximum likelihood （PML），是可以与所有对称属性竞争的样本，特别是对于上述所有属性，PML最优。

下载地址：http://proceedings.mlr.press/v70/acharya17a/acharya17a.pdf

最具时间价值奖(Test of Time Award)

论文：Combining Online and Offline Knowledge in UCT
作者：Sylvain Gelly、David Silver
单位：巴黎南大学、阿尔伯塔大学

摘要：UCT算法使用基于样本的搜索在线学习价值函数。TD(λ) 算法可以为策略分布离线学习一个价值函数。我们在UCT算法中考虑了三种离线和在线价值函数的组合。第一种，在蒙特卡洛模拟中使用离线价值函数作为默认策略。第二种，UCT价值函数与快速在线action values评估相结合。第三，离线价值函数作为UCT搜索树的先验知识。我们通过在9×9规格围棋盘上对阵GnuGo 3.7.10来评估这些算法。第一种算法的表现，由于使用随机模拟策略的UCT，但是令人意外的比使用手工模拟策略的UCT算法要差。第二种算法全面优于UCT。第三种算法表现优于使用手工先验知识的UCT算法。我们在MoGo（世界最强9×9围棋程序）中结合了这三种算法。每一种算法都显著改善了MoGo的棋力。

下载地址：http://www.machinelearning.org/proceedings/icml2007/papers/387.pdf

最具时间价值奖提名：

论文：Pegasos: Primal Estimated sub-GrAdient SOlver for SVM
地址：http://ttic.uchicago.edu/~nati/Publications/PegasosMPB.pdf

论文：A Bound on the Label Complexity of Agnostic Active Learning

下载地址：http://www.machinelearning.org/proceedings/icml2007/papers/375.pdf

本文作者：允中

原文发布时间： 2017-08-07

传送门！ICML2017（国际机器学习大会）最佳论文（附下载）

最佳论文奖

最佳论文提名

最具时间价值奖(Test of Time Award)

最具时间价值奖提名：

量子位

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

直播

下载

镜像站

技术资料

传送门！ICML2017（国际机器学习大会）最佳论文（附下载）

最佳论文奖

最佳论文提名

最具时间价值奖(Test of Time Award)

最具时间价值奖提名：

量子位

热门文章

最新文章

相关课程

相关电子书

相关实验场景