这篇近百页的综述梳理了预训练基础模型的演变史,让我们看到 ChatGPT 是怎么一步一步走向成功的。
所有的成功都有迹可循,ChatGPT 也不例外。
前不久,因为对 ChatGPT 的评价过于苛刻,图灵奖得主 Yann LeCun 被送上了热搜。
在他看来,「就底层技术而言,ChatGPT 并没有什么特别的创新,」也不是「什么革命性的东西」。许多研究实验室正在使用同样的技术,开展同样的工作。更重要的是,ChatGPT 及其背后的 GPT-3 在很多方面都是由多方多年来开发的多种技术组成的,是不同的人数十年贡献的结果。因此,LeCun 认为,与其说 ChatGPT 是一个科学突破,不如说它是一个像样的工程实例。
「ChatGPT 是否具有革命性」是个充满争议的话题。但毋庸置疑,它确实是在此前积累的多项技术的基础上构建起来的,比如核心的 Transformer 是谷歌在几年前提出来的,而 Transformer 又受到了 Bengio 关于注意力概念的工作的启发。如果再往前追溯,我们还能链接到更古早的几十年前的研究。
当然,公众可能体会不到这种循序渐进的感觉,毕竟不是谁都会一篇一篇去看论文。但对于技术人员来说,了解这些技术的演进过程还是非常有帮助的。
在最近的一篇综述文章中,来自密歇根州立大学、北京航空航天大学、理海大学等机构的研究者仔细梳理了该领域的几百篇论文,主要聚焦文本、图像和图学习领域的预训练基础模型,非常值得一读。杜克大学教授、加拿大工程院院士裴健,伊利诺大学芝加哥分校计算机科学系特聘教授俞士纶(Philip S. Yu),Salesforce AI Research副总裁熊蔡明都是该论文作者之一。
论文链接:https://arxiv.org/pdf/2302.09419.pdf
论文目录如下:
在海外社交平台上,DAIR.AI 联合创始人Elvis S.推荐了这篇综述并获得了一千多的点赞量。