《ML Papers Explained》开源项目!

简介: 《ML Papers Explained》开源项目!

机器学习领域的研究进展迅速,研究者既要及时跟进最新研究,也要不时地回顾经典。寒假开始,各位机器学习er在度假之余,想必也不会忘了自己卷王的身份。


最近,Github上出现了一个名为“ML Papers Explained”的优质项目,精选了机器学习领域的一些核心概念,对相关工作的原始论文做了解读,实在是广大MLer的一大福利。


07e51b216f97cb5a92472b99c65e126a.png

开源地址https://github.com/dair-ai/ML-Papers-Explained

1

25个必学的ML概念



该项目由三位数据 Rastogi、Diego Marinho、Elvis Saravia创建,旨在介绍机器学习领域重点技术的研究论文,既有经典重现,也有最新前沿跟进,突出论文的主要创新点,讨论它们对研究领域的影响及其应用空间。


该项目目前集合了25个机器学习概念,涉及计算机视觉、目标检测、文档信息处理、自然语言处理等方向。按类别划分,包括RCNN系列:



74fd269676d6acba3770540eb36982a9.png

Transformer系列(Layout Transformers、Document Information Processing、Vision Transformers):


52c04abcff754afeaa9759934b814a13.png

以及Single Stage Object Detectors系列:


6b6922ca8a383ed809998e559fa88bea.png


点击这些关键词,就是一篇论文详解,这些论文解读大都不是长篇累牍,而是简明扼要地介绍论文的核心发现、实验结果,同时有进一步的延伸思考。文章的排版也清晰明了,能够帮助研究者快速且深入理解一篇论文的精髓。这里选取两篇解读来一睹为快。


2

论文解读示例

TinyBERT解读


在大模型越来越成为AI核心研究方向的当下,回顾这些经典的语言模型论文是大有裨益的。比如自BERT模型出现以后,提高模型参数量的同时降低大模型的计算成本,就一直是该领域的一个热点方向。


Github上的这个论文解读项目就精选了多篇相关论文,以一篇对知识蒸馏方法TinyBERT的解读为例:


56845ed3b434f1445d4664166f1927ef.png


这项工作由年华中科技大学和华为诺亚方舟实验室合作,在2019年提出。这篇解读概括了TinyBERT这项工作的三个核心贡献:Transformer蒸馏、两步蒸馏过程、数据增强,这些方法改进了基于Transformer的模型在特定情况下的知识蒸馏效果。


首先是Transformer蒸馏。这部分介绍了论文所用蒸馏方法的核心思想和公式,并解释了先前的蒸馏工作DistillBERT的弊端,如它使用教师模型来初始化学生模型的权重,导致两者必须有相同的内部尺寸并允许层数不同,而TinyBERT通过在嵌入和隐藏损失函数中引入可学习的投影矩阵来规避这个问题,从而使得学生和教师模型的内部表示在元素方面可以进行比较。


c399fa650d47b331d0235cfea2c83fca.png

另外,解读作者还在这里引用了另一项相关研究,为TinyBERT的进一步工作提出了一个有趣的方向。


7278de4c5aac0a676933523cdaca7325.png


然后是两步蒸馏法。这里说明了TinyBERT所使用的蒸馏过程遵循了原始BERT的训练方法——在大规模的通用数据集上进行预训练以获得语言特征,然后针对特定任务数据进行微调。所以在第一个步骤中,使用在通用数据上训练的通用BERT作为教师,学生学习模仿教师的嵌入和转换层激活来创建一个通用的TinyBERT;在第二个步骤中,将教师模型切换到特定任务模型并继续训练学生模型。



63e0be96caab2dcad893ca3c35ddcab3.png

第三个是数据增强。这部分介绍了论文作者使用了数据增强技术来在微调步骤中对特定任务的数据集进行扩展。


cdede3a7f4a096989bffbfa8c20fffc8.png

之后文章精简地呈现了原始论文中TInyBERT的关键数据,如该模型的性能在基准测试中达到了BERT基础教师模型的96%,同时体积缩小了7.5倍,速度提高了9.4倍。

523ea2664498549f06da30eaf9a07178.png


针对原始论文的三个核心贡献,文章还给出了一些有价值的思考,如特定任务的蒸馏(微调)比通用蒸馏(预训练)更重要等等。



7757e1db2e0a6e9431f07c83ef7204b9.png

Swin Transformer解读

再比如当年屠榜各大视觉任务的Swin Transformer,由微软亚洲研究院郭百宁团队提出,是视觉领域的研究者必读的一篇论文,这项工作也在这个论文解读项目有精彩的分享:


6f3e13c1eb00372f9a9231fca0f602be.png

7f0bc08e783ee64847a7608ca67e524a.png


然后逻辑清晰地详解了Swin Transformer的架构细节,包括4个stage和Swin Transformer Block


962551344ea4228b62c531cd12660835.png


接着列出了Swin Transformer的几项实验:


31a34be015ccc28d26245f78549ab5d7.png

有兴趣的读者可以自行前往该项目探索一番,如果想分享自己的论文解读,也可以向该项目提交PR。据项目作者透露,后续还将推出notebook和讲座,帮助大家更好地跟进研究进展。

项目地址:https://github.com/dair-ai/ML-Papers-Explained

相关文章
|
机器学习/深度学习
Stanford 机器学习练习 Part 2 Logistics Regression
以下是我学习Andrew Ng machine learning 课程时logistic regression的相关代码,仅作为参考,因为是初学,暂时没办法做出总结。
52 1
|
机器学习/深度学习
Stanford 机器学习练习 Part 1 Linear Regression
In octave, we return values by defining which variables % represent the return values (at the top of the file)
52 0
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
Hugging Face 论文平台 Daily Papers 功能全解析
【9月更文挑战第23天】Hugging Face 是一个专注于自然语言处理领域的开源机器学习平台。其推出的 Daily Papers 页面旨在帮助开发者和研究人员跟踪 AI 领域的最新进展,展示经精心挑选的高质量研究论文,并提供个性化推荐、互动交流、搜索、分类浏览及邮件提醒等功能,促进学术合作与知识共享。
|
机器学习/深度学习 自然语言处理 算法
Multimedia Event Extraction From News With a Unified Contrastive Learning Framework论文解读
从新闻中提取事件在下游应用程序中有很多好处。然而,今天的事件提取(EE)系统通常专注于单一的模态——无论是文本还是图像
190 0
带你读《2022技术人的百宝黑皮书》——A Contrastive Framework for Learning Sentence Representations from Pairwise and Triple- wise Perspective in Angular Space(2)
带你读《2022技术人的百宝黑皮书》——A Contrastive Framework for Learning Sentence Representations from Pairwise and Triple- wise Perspective in Angular Space(2)
带你读《2022技术人的百宝黑皮书》——A Contrastive Framework for  Learning Sentence Representations  from Pairwise and Triple- wise  Perspective in Angular Space(2)
带你读《2022技术人的百宝黑皮书》——A Contrastive Framework for Learning Sentence Representations from Pairwise and Triple- wise Perspective in Angular Space(5)
带你读《2022技术人的百宝黑皮书》——A Contrastive Framework for Learning Sentence Representations from Pairwise and Triple- wise Perspective in Angular Space(5)
带你读《2022技术人的百宝黑皮书》——A Contrastive Framework for Learning Sentence Representations from Pairwise and Triple- wise Perspective in Angular Space(7)
带你读《2022技术人的百宝黑皮书》——A Contrastive Framework for Learning Sentence Representations from Pairwise and Triple- wise Perspective in Angular Space(7)
带你读《2022技术人的百宝黑皮书》——A Contrastive Framework for Learning Sentence Representations from Pairwise and Triple- wise Perspective in Angular Space(8)
带你读《2022技术人的百宝黑皮书》——A Contrastive Framework for Learning Sentence Representations from Pairwise and Triple- wise Perspective in Angular Space(8)
|
机器学习/深度学习 算法 搜索推荐
On the Unreasonable Effectiveness of Feature propagation in Learning on Graphs with Missing 论文阅读笔记
On the Unreasonable Effectiveness of Feature propagation in Learning on Graphs with Missing 论文阅读笔记
216 0
On the Unreasonable Effectiveness of Feature propagation in Learning on Graphs with Missing 论文阅读笔记
|
TensorFlow 算法框架/工具
《A beginner introduction to TensorFlow (Part-1)》电子版地址
A beginner introduction to TensorFlow (Part-1)
103 0
《A beginner introduction to TensorFlow (Part-1)》电子版地址