《ML Papers Explained》开源项目!

简介: 《ML Papers Explained》开源项目!

机器学习领域的研究进展迅速,研究者既要及时跟进最新研究,也要不时地回顾经典。寒假开始,各位机器学习er在度假之余,想必也不会忘了自己卷王的身份。


最近,Github上出现了一个名为“ML Papers Explained”的优质项目,精选了机器学习领域的一些核心概念,对相关工作的原始论文做了解读,实在是广大MLer的一大福利。


07e51b216f97cb5a92472b99c65e126a.png

开源地址https://github.com/dair-ai/ML-Papers-Explained

1

25个必学的ML概念



该项目由三位数据 Rastogi、Diego Marinho、Elvis Saravia创建,旨在介绍机器学习领域重点技术的研究论文,既有经典重现,也有最新前沿跟进,突出论文的主要创新点,讨论它们对研究领域的影响及其应用空间。


该项目目前集合了25个机器学习概念,涉及计算机视觉、目标检测、文档信息处理、自然语言处理等方向。按类别划分,包括RCNN系列:



74fd269676d6acba3770540eb36982a9.png

Transformer系列(Layout Transformers、Document Information Processing、Vision Transformers):


52c04abcff754afeaa9759934b814a13.png

以及Single Stage Object Detectors系列:


6b6922ca8a383ed809998e559fa88bea.png


点击这些关键词,就是一篇论文详解,这些论文解读大都不是长篇累牍,而是简明扼要地介绍论文的核心发现、实验结果,同时有进一步的延伸思考。文章的排版也清晰明了,能够帮助研究者快速且深入理解一篇论文的精髓。这里选取两篇解读来一睹为快。


2

论文解读示例

TinyBERT解读


在大模型越来越成为AI核心研究方向的当下,回顾这些经典的语言模型论文是大有裨益的。比如自BERT模型出现以后,提高模型参数量的同时降低大模型的计算成本,就一直是该领域的一个热点方向。


Github上的这个论文解读项目就精选了多篇相关论文,以一篇对知识蒸馏方法TinyBERT的解读为例:


56845ed3b434f1445d4664166f1927ef.png


这项工作由年华中科技大学和华为诺亚方舟实验室合作,在2019年提出。这篇解读概括了TinyBERT这项工作的三个核心贡献:Transformer蒸馏、两步蒸馏过程、数据增强,这些方法改进了基于Transformer的模型在特定情况下的知识蒸馏效果。


首先是Transformer蒸馏。这部分介绍了论文所用蒸馏方法的核心思想和公式,并解释了先前的蒸馏工作DistillBERT的弊端,如它使用教师模型来初始化学生模型的权重,导致两者必须有相同的内部尺寸并允许层数不同,而TinyBERT通过在嵌入和隐藏损失函数中引入可学习的投影矩阵来规避这个问题,从而使得学生和教师模型的内部表示在元素方面可以进行比较。


c399fa650d47b331d0235cfea2c83fca.png

另外,解读作者还在这里引用了另一项相关研究,为TinyBERT的进一步工作提出了一个有趣的方向。


7278de4c5aac0a676933523cdaca7325.png


然后是两步蒸馏法。这里说明了TinyBERT所使用的蒸馏过程遵循了原始BERT的训练方法——在大规模的通用数据集上进行预训练以获得语言特征,然后针对特定任务数据进行微调。所以在第一个步骤中,使用在通用数据上训练的通用BERT作为教师,学生学习模仿教师的嵌入和转换层激活来创建一个通用的TinyBERT;在第二个步骤中,将教师模型切换到特定任务模型并继续训练学生模型。



63e0be96caab2dcad893ca3c35ddcab3.png

第三个是数据增强。这部分介绍了论文作者使用了数据增强技术来在微调步骤中对特定任务的数据集进行扩展。


cdede3a7f4a096989bffbfa8c20fffc8.png

之后文章精简地呈现了原始论文中TInyBERT的关键数据,如该模型的性能在基准测试中达到了BERT基础教师模型的96%,同时体积缩小了7.5倍,速度提高了9.4倍。

523ea2664498549f06da30eaf9a07178.png


针对原始论文的三个核心贡献,文章还给出了一些有价值的思考,如特定任务的蒸馏(微调)比通用蒸馏(预训练)更重要等等。



7757e1db2e0a6e9431f07c83ef7204b9.png

Swin Transformer解读

再比如当年屠榜各大视觉任务的Swin Transformer,由微软亚洲研究院郭百宁团队提出,是视觉领域的研究者必读的一篇论文,这项工作也在这个论文解读项目有精彩的分享:


6f3e13c1eb00372f9a9231fca0f602be.png

7f0bc08e783ee64847a7608ca67e524a.png


然后逻辑清晰地详解了Swin Transformer的架构细节,包括4个stage和Swin Transformer Block


962551344ea4228b62c531cd12660835.png


接着列出了Swin Transformer的几项实验:


31a34be015ccc28d26245f78549ab5d7.png

有兴趣的读者可以自行前往该项目探索一番,如果想分享自己的论文解读,也可以向该项目提交PR。据项目作者透露,后续还将推出notebook和讲座,帮助大家更好地跟进研究进展。

项目地址:https://github.com/dair-ai/ML-Papers-Explained

相关文章
|
7月前
|
机器学习/深度学习
Stanford 机器学习练习 Part 2 Logistics Regression
以下是我学习Andrew Ng machine learning 课程时logistic regression的相关代码,仅作为参考,因为是初学,暂时没办法做出总结。
39 1
|
10月前
|
数据可视化 数据挖掘 数据处理
SPSS(Statistical Package for the Social Sciences)
SPSS(Statistical Package for the Social Sciences)是一种统计分析软件,广泛用于社会科学、商业和健康领域的数据分析。它提供了一套功能强大的工具和方法,用于数据收集、数据处理、数据可视化和统计分析。
181 1
|
10月前
|
机器学习/深度学习 自然语言处理 算法
Multimedia Event Extraction From News With a Unified Contrastive Learning Framework论文解读
从新闻中提取事件在下游应用程序中有很多好处。然而,今天的事件提取(EE)系统通常专注于单一的模态——无论是文本还是图像
121 0
|
机器学习/深度学习 传感器 数据挖掘
Review on the Recent Welding Research with Application of CNN-Based Deep Learning
Guo等人16)将CNN应用于线管制造过程中的电阻焊,提出了一种正常焊缝与缺陷焊缝的分类模型,准确率达到99.01%。
73 0
|
机器学习/深度学习 存储 自然语言处理
Bi-SimCut: A Simple Strategy for Boosting Neural Machine Translation 论文笔记
Bi-SimCut: A Simple Strategy for Boosting Neural Machine Translation 论文笔记
|
机器学习/深度学习 算法 搜索推荐
On the Unreasonable Effectiveness of Feature propagation in Learning on Graphs with Missing 论文阅读笔记
On the Unreasonable Effectiveness of Feature propagation in Learning on Graphs with Missing 论文阅读笔记
175 0
On the Unreasonable Effectiveness of Feature propagation in Learning on Graphs with Missing 论文阅读笔记
|
TensorFlow 算法框架/工具
《A beginner introduction to TensorFlow (Part-1)》电子版地址
A beginner introduction to TensorFlow (Part-1)
84 0
《A beginner introduction to TensorFlow (Part-1)》电子版地址
|
机器学习/深度学习 自然语言处理 算法
Re4:读论文 CGSum: Enhancing Scientific Papers Summarization with Citation Graph
Re4:读论文 CGSum: Enhancing Scientific Papers Summarization with Citation Graph
Re4:读论文 CGSum: Enhancing Scientific Papers Summarization with Citation Graph
|
机器学习/深度学习 缓存 搜索推荐
【推荐系统论文精读系列】(四)--Practical Lessons from Predicting Clicks on Ads at Facebook
点击预测系统大多是以在线广告系统维中心,每天7亿的日常活跃用户和超过1百万的活跃广告,因此预测FaceBook上的广告点击率是一项具有挑战的机器学习任务。本片论文中我们介绍了一个模型采用决策树和逻辑回归结合的模式,融合模型的表现胜过它们自己单独建模的效果3%,这个一个重大的影响对于整个系统的表现。
140 0
|
机器学习/深度学习 人工智能 搜索推荐
【推荐系统论文精读系列】(十二)--Neural Factorization Machines for Sparse Predictive Analytics
现在很多基于网站应用的预测任务都需要对类别进行建模,例如用户的ID、性别和职业等。为了使用通常的机器学习预测算法,需要将这些类别变量通过one-hot将其转化成二值特征,这就会导致合成的特征向量是高度稀疏的。为了有效学习这些稀疏数据,关键就是要解释不同特征之间的影响。
309 0