《ML Papers Explained》开源项目!

简介: 《ML Papers Explained》开源项目!

机器学习领域的研究进展迅速,研究者既要及时跟进最新研究,也要不时地回顾经典。寒假开始,各位机器学习er在度假之余,想必也不会忘了自己卷王的身份。


最近,Github上出现了一个名为“ML Papers Explained”的优质项目,精选了机器学习领域的一些核心概念,对相关工作的原始论文做了解读,实在是广大MLer的一大福利。


07e51b216f97cb5a92472b99c65e126a.png

开源地址https://github.com/dair-ai/ML-Papers-Explained

1

25个必学的ML概念



该项目由三位数据 Rastogi、Diego Marinho、Elvis Saravia创建,旨在介绍机器学习领域重点技术的研究论文,既有经典重现,也有最新前沿跟进,突出论文的主要创新点,讨论它们对研究领域的影响及其应用空间。


该项目目前集合了25个机器学习概念,涉及计算机视觉、目标检测、文档信息处理、自然语言处理等方向。按类别划分,包括RCNN系列:



74fd269676d6acba3770540eb36982a9.png

Transformer系列(Layout Transformers、Document Information Processing、Vision Transformers):


52c04abcff754afeaa9759934b814a13.png

以及Single Stage Object Detectors系列:


6b6922ca8a383ed809998e559fa88bea.png


点击这些关键词,就是一篇论文详解,这些论文解读大都不是长篇累牍,而是简明扼要地介绍论文的核心发现、实验结果,同时有进一步的延伸思考。文章的排版也清晰明了,能够帮助研究者快速且深入理解一篇论文的精髓。这里选取两篇解读来一睹为快。


2

论文解读示例

TinyBERT解读


在大模型越来越成为AI核心研究方向的当下,回顾这些经典的语言模型论文是大有裨益的。比如自BERT模型出现以后,提高模型参数量的同时降低大模型的计算成本,就一直是该领域的一个热点方向。


Github上的这个论文解读项目就精选了多篇相关论文,以一篇对知识蒸馏方法TinyBERT的解读为例:


56845ed3b434f1445d4664166f1927ef.png


这项工作由年华中科技大学和华为诺亚方舟实验室合作,在2019年提出。这篇解读概括了TinyBERT这项工作的三个核心贡献:Transformer蒸馏、两步蒸馏过程、数据增强,这些方法改进了基于Transformer的模型在特定情况下的知识蒸馏效果。


首先是Transformer蒸馏。这部分介绍了论文所用蒸馏方法的核心思想和公式,并解释了先前的蒸馏工作DistillBERT的弊端,如它使用教师模型来初始化学生模型的权重,导致两者必须有相同的内部尺寸并允许层数不同,而TinyBERT通过在嵌入和隐藏损失函数中引入可学习的投影矩阵来规避这个问题,从而使得学生和教师模型的内部表示在元素方面可以进行比较。


c399fa650d47b331d0235cfea2c83fca.png

另外,解读作者还在这里引用了另一项相关研究,为TinyBERT的进一步工作提出了一个有趣的方向。


7278de4c5aac0a676933523cdaca7325.png


然后是两步蒸馏法。这里说明了TinyBERT所使用的蒸馏过程遵循了原始BERT的训练方法——在大规模的通用数据集上进行预训练以获得语言特征,然后针对特定任务数据进行微调。所以在第一个步骤中,使用在通用数据上训练的通用BERT作为教师,学生学习模仿教师的嵌入和转换层激活来创建一个通用的TinyBERT;在第二个步骤中,将教师模型切换到特定任务模型并继续训练学生模型。



63e0be96caab2dcad893ca3c35ddcab3.png

第三个是数据增强。这部分介绍了论文作者使用了数据增强技术来在微调步骤中对特定任务的数据集进行扩展。


cdede3a7f4a096989bffbfa8c20fffc8.png

之后文章精简地呈现了原始论文中TInyBERT的关键数据,如该模型的性能在基准测试中达到了BERT基础教师模型的96%,同时体积缩小了7.5倍,速度提高了9.4倍。

523ea2664498549f06da30eaf9a07178.png


针对原始论文的三个核心贡献,文章还给出了一些有价值的思考,如特定任务的蒸馏(微调)比通用蒸馏(预训练)更重要等等。



7757e1db2e0a6e9431f07c83ef7204b9.png

Swin Transformer解读

再比如当年屠榜各大视觉任务的Swin Transformer,由微软亚洲研究院郭百宁团队提出,是视觉领域的研究者必读的一篇论文,这项工作也在这个论文解读项目有精彩的分享:


6f3e13c1eb00372f9a9231fca0f602be.png

7f0bc08e783ee64847a7608ca67e524a.png


然后逻辑清晰地详解了Swin Transformer的架构细节,包括4个stage和Swin Transformer Block


962551344ea4228b62c531cd12660835.png


接着列出了Swin Transformer的几项实验:


31a34be015ccc28d26245f78549ab5d7.png

有兴趣的读者可以自行前往该项目探索一番,如果想分享自己的论文解读,也可以向该项目提交PR。据项目作者透露,后续还将推出notebook和讲座,帮助大家更好地跟进研究进展。

项目地址:https://github.com/dair-ai/ML-Papers-Explained

相关文章
|
机器学习/深度学习
Stanford 机器学习练习 Part 2 Logistics Regression
以下是我学习Andrew Ng machine learning 课程时logistic regression的相关代码,仅作为参考,因为是初学,暂时没办法做出总结。
52 1
|
机器学习/深度学习
Stanford 机器学习练习 Part 1 Linear Regression
In octave, we return values by defining which variables % represent the return values (at the top of the file)
55 0
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
Hugging Face 论文平台 Daily Papers 功能全解析
【9月更文挑战第23天】Hugging Face 是一个专注于自然语言处理领域的开源机器学习平台。其推出的 Daily Papers 页面旨在帮助开发者和研究人员跟踪 AI 领域的最新进展,展示经精心挑选的高质量研究论文,并提供个性化推荐、互动交流、搜索、分类浏览及邮件提醒等功能,促进学术合作与知识共享。
|
4月前
|
存储 机器学习/深度学习 算法
【博士每天一篇论文-综述】An overview of brain-like computing Architecture, applications, and future trends
本文提供了对脑科学计算的介绍,包括神经元模型、神经信息编码方式、类脑芯片技术、脑科学计算的应用领域以及面临的挑战,展望了脑科学计算的未来发展趋势。
56 0
【博士每天一篇论文-综述】An overview of brain-like computing Architecture, applications, and future trends
|
数据可视化 数据挖掘 数据处理
SPSS(Statistical Package for the Social Sciences)
SPSS(Statistical Package for the Social Sciences)是一种统计分析软件,广泛用于社会科学、商业和健康领域的数据分析。它提供了一套功能强大的工具和方法,用于数据收集、数据处理、数据可视化和统计分析。
311 1
|
机器学习/深度学习 编解码 测试技术
UPerNet:Unified Perceptual Parsing for Scene Understanding论文解读
人类在多个层面上识别视觉世界:我们毫不费力地对场景进行分类并检测内部物体,同时还识别物体的纹理和表面及其不同的组成部分。
250 0
|
机器学习/深度学习 Web App开发 人工智能
Meta AI & UC Berkeley 新作 | Early Dropout: Make Hinton‘s Drouout Great Again!
Meta AI & UC Berkeley 新作 | Early Dropout: Make Hinton‘s Drouout Great Again!
143 0
|
分布式计算 Spark
《Problem Solving Recipes Learned from Supporting Spark》电子版地址
Problem Solving Recipes Learned from Supporting Spark
71 0
《Problem Solving Recipes Learned from Supporting Spark》电子版地址
|
机器学习/深度学习 算法 搜索推荐
On the Unreasonable Effectiveness of Feature propagation in Learning on Graphs with Missing 论文阅读笔记
On the Unreasonable Effectiveness of Feature propagation in Learning on Graphs with Missing 论文阅读笔记
218 0
On the Unreasonable Effectiveness of Feature propagation in Learning on Graphs with Missing 论文阅读笔记
|
机器学习/深度学习 自然语言处理 算法
Re4:读论文 CGSum: Enhancing Scientific Papers Summarization with Citation Graph
Re4:读论文 CGSum: Enhancing Scientific Papers Summarization with Citation Graph
Re4:读论文 CGSum: Enhancing Scientific Papers Summarization with Citation Graph