SparK项目原作解读:卷积模型的首个BERT预训练

本文涉及的产品
模型训练 PAI-DLC,100CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: SparK项目原作解读:卷积模型的首个BERT预训练

「大规模预训练」是 AI 各领域愈发浮出水面的宏图愿景。BERT 预训练与 GPT 齐名,分别被证明在语言理解和语言生成下游任务上取得了卓越性能,是 NLP 表征学习的利器。「卷积模型」则是视觉领域的中流砥柱。得益于高度并行化和局部化,CNN 长期积累的硬件优化使其成为现实工业界中不可代替的骨干。「强大的预训练的卷积模型」则是视觉研究者的长期追求,然而,卷积模型的 SOTA 预训练仍停滞在对比学习,将 BERT 的成功从 Transformer 迁移到卷积是一个吸引人但未实现的愿景。

SparK 工作初步进行了一些探索:该工作归纳 BERT 算法和 CNN 模型的关键不适配在于两点:(1) 是规整的 CNN 天生无法处理随机的、不规则的 BERT 随机掩码的输入,(2) 是视觉领域中长期以来的 “多尺度” 设计,与天然单尺度的 BERT 存在不一致。其解决方案是:(1) 使用子流形稀疏卷积以适应随机孔洞输入,(2) 设计 UNet 风格结构以允许多尺度信息的流通。

作为卷积模型上的首个 BERT 式预训练,SparK 可被使用在任何模型上,并以 ResNet 系列和 ConvNeXt 为例测试,性能远超有监督预训练、对比学习,甚至超过 MIM+Swin-Transformer. 目前代码、模型均开源,作者希望能够为真实场景下的卷积模型助力,并帮助探索更广阔的视觉预训练领域。

机器之心最新一期线上分享邀请到了北京大学在读硕士田柯宇,为大家分享他们近期工作 SparK。


分享主题:SparK:卷积模型的首个BERT预训练

分享嘉宾:田柯宇,北京大学研一学生,导师为王立威老师,研究方向为深度学习算法,包括超参数优化/强化学习/自监督的新型算法,在 NeurIPS 等会议发表多篇论文并担任 NeurIPS/ICML/ICLR/CVPR 等审稿人。

分享摘要:SparK 由北大与字节跳动合作,是卷积模型上的首个通用的 BERT 式预训练,可被运用在任何卷积网络上(如 ResNet-50/ConvNeXt)。在分类 / 检测 / 分割的标准下游场景,SparK 大幅超过了有监督预训练和对比学习(最高涨幅达 3.5),超越 MIM+Swin-Transformer,并展现出可扩放性质(scalable):大模型收益更多。希望 SparK 的开源,以及其利用稀疏卷积和多尺度结构的两个关键设计,可以助力使用卷积网络的各个真实场景、贡献社区。

相关链接:

1)SOTA!模型平台项目主页链接:

https://sota.jiqizhixin.com/project/spark

2)论文链接:

https://arxiv.org/abs/2301.03580

3)代码仓库:

https://github.com/keyu-tian/SparK

4)Demo视频:

http://www.youtube.com/watch?v=-IWyQ2hAoBw

相关文章
|
4月前
|
存储 缓存 分布式计算
大数据-83 Spark 集群 RDD编程简介 RDD特点 Spark编程模型介绍
大数据-83 Spark 集群 RDD编程简介 RDD特点 Spark编程模型介绍
65 4
|
30天前
|
机器学习/深度学习 人工智能 自然语言处理
昇腾AI行业案例(四):基于 Bert 模型实现文本分类
欢迎学习《昇腾行业应用案例》的“基于 Bert 模型实现文本分类”实验。在本实验中,您将学习如何使用利用 NLP (natural language processing) 领域的AI模型来构建一个端到端的文本系统,并使用开源数据集进行效果验证。为此,我们将使用昇腾的AI硬件以及CANN等软件产品。
40 0
|
4月前
|
自然语言处理 PyTorch 算法框架/工具
掌握从零到一的进阶攻略:让你轻松成为BERT微调高手——详解模型微调全流程,含实战代码与最佳实践秘籍,助你应对各类NLP挑战!
【10月更文挑战第1天】随着深度学习技术的进步,预训练模型已成为自然语言处理(NLP)领域的常见实践。这些模型通过大规模数据集训练获得通用语言表示,但需进一步微调以适应特定任务。本文通过简化流程和示例代码,介绍了如何选择预训练模型(如BERT),并利用Python库(如Transformers和PyTorch)进行微调。文章详细说明了数据准备、模型初始化、损失函数定义及训练循环等关键步骤,并提供了评估模型性能的方法。希望本文能帮助读者更好地理解和实现模型微调。
191 2
掌握从零到一的进阶攻略:让你轻松成为BERT微调高手——详解模型微调全流程,含实战代码与最佳实践秘籍,助你应对各类NLP挑战!
|
3月前
|
分布式计算 Java 开发工具
阿里云MaxCompute-XGBoost on Spark 极限梯度提升算法的分布式训练与模型持久化oss的实现与代码浅析
本文介绍了XGBoost在MaxCompute+OSS架构下模型持久化遇到的问题及其解决方案。首先简要介绍了XGBoost的特点和应用场景,随后详细描述了客户在将XGBoost on Spark任务从HDFS迁移到OSS时遇到的异常情况。通过分析异常堆栈和源代码,发现使用的`nativeBooster.saveModel`方法不支持OSS路径,而使用`write.overwrite().save`方法则能成功保存模型。最后提供了完整的Scala代码示例、Maven配置和提交命令,帮助用户顺利迁移模型存储路径。
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
【大语言模型-论文精读】谷歌-BERT:用于语言理解的预训练深度双向Transformers
【大语言模型-论文精读】谷歌-BERT:用于语言理解的预训练深度双向Transformers
301 1
|
4月前
|
机器学习/深度学习 自然语言处理 知识图谱
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
【AI大模型】BERT模型:揭秘LLM主要类别架构(上)
【AI大模型】BERT模型:揭秘LLM主要类别架构(上)
|
5月前
|
搜索推荐 算法
模型小,还高效!港大最新推荐系统EasyRec:零样本文本推荐能力超越OpenAI、Bert
【9月更文挑战第21天】香港大学研究者开发了一种名为EasyRec的新推荐系统,利用语言模型的强大文本理解和生成能力,解决了传统推荐算法在零样本学习场景中的局限。EasyRec通过文本-行为对齐框架,结合对比学习和协同语言模型调优,提升了推荐准确性。实验表明,EasyRec在多个真实世界数据集上的表现优于现有模型,但其性能依赖高质量文本数据且计算复杂度较高。论文详见:http://arxiv.org/abs/2408.08821
147 7
|
4月前
|
机器学习/深度学习 自然语言处理 算法
[大语言模型-工程实践] 手把手教你-基于BERT模型提取商品标题关键词及优化改进
[大语言模型-工程实践] 手把手教你-基于BERT模型提取商品标题关键词及优化改进
402 0
|
SQL 分布式计算 API
Spark最佳实践-项目规范
前言 大数据开发的日常工作中,开发人员经常需要使用 Spark、Flink 等计算引擎作为工具来实现一些 业务逻辑 的计算。 以 Spark 为例,开发人员会使用 SparkSQL、DataFrame、RDD 等不同形式的API来实现业务需求。
2352 0

热门文章

最新文章