过去5年最受欢迎机器学习论文+代码速查

简介: Papers with Code网站将ArXiv上的最新机器学习论文与GitHub上的代码联系起来。这个项目索引了大约5万篇论文和1万个GitHub库,你可以按标题关键词查询,也可以按流行程度、GitHub星星数排列“热门研究”,跟上ML社区流行的最新动态。

在阅读一篇论文时,我们很自然地想看看论文中提出的算法和模型实现的代码。然而,机器学习领域虽然有开源的优良传统,但提出新算法的最新论文中,真正公开算法代码的着实不多,找到对应论文的相关代码库也不容易。

去年在AAAI会议上,挪威一名计算机科学家报告了一项调查的结果:过去几年发表的AI顶会论文提出的400种算法中,只有6%的研究者公开了算法的代码。另外,只有三分之一的人分享了他们测试算法的数据,而只有一半分享了“伪代码”。

2059a4268024771c2bd9f525dc43ccf8f831ada4

CREDITS: (GRAPHIC) E. HAND/SCIENCE; (DATA) GUNDERSEN AND KJENSMO, ASSOCIATION FOR THE ADVANCEMENT OF ARTIFICIAL INTELLIGENCE 2018

via新智元报道:【AI幽灵】超90%论文算法不可复现,你为何不愿公开代码?

现在,有一个找到论文代码的“神器”出现了。Reddit用户rstoj做了一个网站,将ArXiv上的最新机器学习论文与GitHub上的代码(TensorFlow/PyTorch/MXNet /等)对应起来。你可以按标题关键词查询,也可以按流行程度、GitHub星星数排列“热门研究”。这个网站能让你跟上ML社区流行的最新动态。

0db4dd4d1da327aca27bebdc7eb55528724757f7

网站地址:https://paperswithcode.com/

这个项目索引了大约5万篇论文(最近5年发布在arxiv上的论文)和1万个GitHub库。网站刚刚上线,功能还有些单一,作者表示未来还将增加标签索引、链接媒体文章和教程等功能。以下介绍按GitHub星星数排列的Top 10研究,来先睹为快吧!

1. Caffe:一个快速、开源的深度学习框架

star:24,596

代码:https://github.com/BVLC/caffe

论文:http://arxiv.org/abs/1408.5093v1

Caffe 是一个深度学习框架,在设计时将表达式、速度和模块化考虑在内。这个热门的计算机视觉框架由 Berkeley AI Research(BAIR)和社区贡献者开发。贾扬清在UC Berkeley博士期间创建了这个项目。Caffe 可为学术研究项目、新创公司原型和大规模行业应用程序提供强大的视觉、语音和多媒体支持。

Caffe是一个采用BSD许可证发布的C ++库,使用Python和MATLAB绑定,可在商用架构上有效训练和部署通用卷积神经网络和其他深层模型。Caffe通过CUDA GPU计算满足行业和互联网规模的媒体需求,在单个K40或Titan GPU上,媒体处理超过4000万张图像。

2. Neural Style:神经风格转换算法

A Neural Algorithm of Artistic Style

star:15,840

代码:https://github.com/jcjohnson/neural-style

论文:http://arxiv.org/abs/1508.06576v2

在艺术,特别是绘画中,人类已经掌握了通过图像风格来创造独特的视觉体验的技巧。在这篇论文中,研究人员提出一种算法,用卷积神经网络将一幅图像的内容与另一幅图像的风格进行组合。下面是一个将梵高《星夜》的艺术风格转移到斯坦福大学校园夜景的照片中的效果:

b61dad3963d89d2b34dbf9620d9f7b306ca151f7

3. Detectron

star:14,795

代码:https://github.com/facebookresearch/detectron

论文:http://arxiv.org/abs/1703.06870v3

Detectron是Facebook AI Research(FAIR)的物体检测研究平台,这个代码库包含许多最新对象检测算法的实现,包括了Mask R-CNN和RetinaNet等流行算法。

16928aaafaed6280fc306b37c349f17dfbb1aca3

4. 使用子字信息丰富词汇向量

Enriching Word Vectors with Subword Information

star:14,565

代码:https://github.com/facebookresearch/fastText

论文:http://arxiv.org/abs/1607.04606v2

在大型未标记语料库上训练的连续词表示对许多自然语言处理任务都很有用。一个向量表示与每个字符n-gram相关联; 单词被表示为这些向量表示的总和。

5. FastText.zip:压缩文本分类模型

FastText.zip: Compressing text classification models

star:14,565

代码:https://github.com/facebookresearch/fastText

论文:http://arxiv.org/abs/1612.03651v1

这是为文本分类生成紧凑的体系结构的问题,从而使整个模型可以在有限的内存中使用。在思考了由哈希方法启发的不同解决方案之后,我们提出了一种基于产品量化来存储词嵌入的方法。

6. 高效的文本分类技巧包

Bag of Tricks for Efficient Text Classification

star:14,565

代码:https://github.com/facebookresearch/fastText

论文:http://arxiv.org/abs/1607.01759v3

这篇文章探讨了一种简单有效的文本分类基准。实验表明,我们的快速文本分类器fastText在准确率上可以与深度学习分类器相媲美,并且在训练和评估上速度快了几个数量级。

(注:以上3篇论文都链接到fastText的GitHub库)

7. 多目标强化学习:挑战机器人环境和研究要求

Multi-Goal Reinforcement Learning: Challenging Robotics Environments and Request for Research

star:12,481

代码:https://github.com/openai/gym

论文:http://arxiv.org/abs/1802.09464v2

这篇技术报告有两个目的:首先,它基于现有的机器人硬件,引入了一套具有挑战性的连续控制任务(与OpenAI Gym集成),包括用机器人手臂进行推动、滑动,拾物和放置等。第二部分,研究人员提出一套改进RL算法的具体研究思路,其中大部分与多目标RL和事后经验回放(Hindsight Experience Replay)有关。

8. OpenAI Gym

star:12,481

代码:https://github.com/openai/gym

论文:http://arxiv.org/abs/1606.01540v1

OpenAI Gym是强化学习研究的工具包。它包括越来越多的基准问题集,引入一个通用的接口,以及一个可以让人们在上面分享他们的结果并比较算法的性能的网站。

9. XGBoost:一种可扩展的基于树的Boosting系统

XGBoost: A Scalable Tree Boosting System

star:12,449

代码:https://github.com/dmlc/xgboost

论文:http://arxiv.org/abs/1603.02754v3

在这篇论文中,我们描述了一个名为XGBoost的可扩展端到端的tree boosting系统,该系统已经被数据科学家广泛使用,实现了许多机器学习挑战的最新成果。我们提出了一种新的用于稀疏数据的sparsity-aware 算法。

10. 使用深度卷积网络的图像超分辨率

Image Super-Resolution Using Deep Convolutional Networks

star:11,432

代码:https://github.com/nagadomi/waifu2x

论文:http://arxiv.org/abs/1501.00092v3

该映射表示为一个深度卷积神经网络(CNN),它将低分辨率图像作为输入,并输出高分辨率图像。我们进一步证明传统的基于稀疏编码的SR方法也可以被看作是一个深度卷积网络。


原文发布时间为:2018-06-23

本文作者:肖琴

本文来自云栖社区合作伙伴新智元,了解相关信息可以关注“AI_era”。

原文链接:过去5年最受欢迎机器学习论文+代码速查

相关文章
|
14天前
|
机器学习/深度学习 人工智能 自然语言处理
【NeurIPS'24】阿里云 PAI 团队论文被收录为 Spotlight,并完成主题演讲分享
12月10日,NeurIPS 2024在温哥华开幕,阿里云PAI团队论文《PertEval: Unveiling Real Knowledge Capacity of LLMs with Knowledge-Invariant Perturbations》入选Spotlight,PAI团队还进行了“可信AI的技术解读与最佳实践”主题演讲,展示AI工程化平台产品能力。
|
1月前
|
机器学习/深度学习 数据采集 人工智能
探索机器学习:从理论到Python代码实践
【10月更文挑战第36天】本文将深入浅出地介绍机器学习的基本概念、主要算法及其在Python中的实现。我们将通过实际案例,展示如何使用scikit-learn库进行数据预处理、模型选择和参数调优。无论你是初学者还是有一定基础的开发者,都能从中获得启发和实践指导。
47 2
|
1月前
|
机器学习/深度学习 数据采集 人工智能
揭秘AI:机器学习的魔法与代码
【10月更文挑战第33天】本文将带你走进AI的世界,了解机器学习的原理和应用。我们将通过Python代码示例,展示如何实现一个简单的线性回归模型。无论你是AI新手还是有经验的开发者,这篇文章都会给你带来新的启示。让我们一起探索AI的奥秘吧!
|
2月前
|
数据采集 移动开发 数据可视化
模型预测笔记(一):数据清洗分析及可视化、模型搭建、模型训练和预测代码一体化和对应结果展示(可作为baseline)
这篇文章介绍了数据清洗、分析、可视化、模型搭建、训练和预测的全过程,包括缺失值处理、异常值处理、特征选择、数据归一化等关键步骤,并展示了模型融合技术。
153 1
模型预测笔记(一):数据清洗分析及可视化、模型搭建、模型训练和预测代码一体化和对应结果展示(可作为baseline)
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
【MM2024】阿里云 PAI 团队图像编辑算法论文入选 MM2024
阿里云人工智能平台 PAI 团队发表的图像编辑算法论文在 MM2024 上正式亮相发表。ACM MM(ACM国际多媒体会议)是国际多媒体领域的顶级会议,旨在为研究人员、工程师和行业专家提供一个交流平台,以展示在多媒体领域的最新研究成果、技术进展和应用案例。其主题涵盖了图像处理、视频分析、音频处理、社交媒体和多媒体系统等广泛领域。此次入选标志着阿里云人工智能平台 PAI 在图像编辑算法方面的研究获得了学术界的充分认可。
【MM2024】阿里云 PAI 团队图像编辑算法论文入选 MM2024
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
【EMNLP2024】阿里云人工智能平台 PAI 多篇论文入选 EMNLP2024
阿里云人工智能平台 PAI 的多篇论文在 EMNLP2024 上入选。论文成果是阿里云与华南理工大学金连文教授团队、复旦大学王鹏教授团队共同研发。EMNLP 是人工智能自然语言处理领域的顶级国际会议,聚焦于自然语言处理技术在各个应用场景的学术研究,尤其重视自然语言处理的实证研究。该会议曾推动了预训练语言模型、文本挖掘、对话系统、机器翻译等自然语言处理领域的核心创新,在学术和工业界都有巨大的影响力。此次入选标志着阿里云人工智能平台 PAI 在自然语言处理和多模态算法能力方面研究获得了学术界认可。
|
2月前
|
机器学习/深度学习 人工智能 算法
揭开深度学习与传统机器学习的神秘面纱:从理论差异到实战代码详解两者间的选择与应用策略全面解析
【10月更文挑战第10天】本文探讨了深度学习与传统机器学习的区别,通过图像识别和语音处理等领域的应用案例,展示了深度学习在自动特征学习和处理大规模数据方面的优势。文中还提供了一个Python代码示例,使用TensorFlow构建多层感知器(MLP)并与Scikit-learn中的逻辑回归模型进行对比,进一步说明了两者的不同特点。
104 2
|
2月前
|
机器学习/深度学习 搜索推荐 算法
机器学习-点击率预估-论文速读-20240916
机器学习-点击率预估-论文速读-20240916
51 0
|
2月前
|
JSON 测试技术 API
阿里云PAI-Stable Diffusion开源代码浅析之(二)我的png info怎么有乱码
阿里云PAI-Stable Diffusion开源代码浅析之(二)我的png info怎么有乱码
|
2月前
|
机器学习/深度学习 算法 API
【机器学习】正则化,欠拟合与过拟合(详细代码与图片演示!助你迅速拿下!!!)
【机器学习】正则化,欠拟合与过拟合(详细代码与图片演示!助你迅速拿下!!!)