什么是fine-tuning?

简介: 什么是fine-tuning?

什么是fine-tuning?



在实践中,由于数据集不够大,很少有人从头开始训练网络。常见的做法是使用预训练的网络(例如在ImageNet上训练的分类1000类的网络)来重新fine-tuning(也叫微调),或者当做特征提取器。



以下是常见的两类迁移学习场景:


1 卷积网络当做特征提取器。使用在ImageNet上预训练的网络,去掉最后的全连接层,剩余部分当做特征提取器(例如AlexNet在最后分类器前,是4096维的特征向量)。这样提取的特征叫做CNN codes。得到这样的特征后,可以使用线性分类器(Liner SVM、Softmax等)来分类图像。


2 Fine-tuning卷积网络。替换掉网络的输入层(数据),使用新的数据继续训练。Fine-tune时可以选择fine-tune全部层或部分层。通常,前面的层提取的是图像的通用特征(generic features)(例如边缘检测,色彩检测),这些特征对许多任务都有用。后面的层提取的是与特定类别有关的特征,因此fine-tune时常常只需要Fine-tuning后面的层。



预训练模型


在ImageNet上训练一个网络,即使使用多GPU也要花费很长时间。因此人们通常共享他们预训练好的网络,这样有利于其他人再去使用。例如,Caffe有预训练好的网络地址Model Zoo。



何时以及如何Fine-tune


决定如何使用迁移学习的因素有很多,这是最重要的只有两个:新数据集的大小、以及新数据和原数据集的相似程度。有一点一定记住:网络前几层学到的是通用特征,后面几层学到的是与类别相关的特征。这里有使用的四个场景:


1、新数据集比较小且和原数据集相似。因为新数据集比较小,如果fine-tune可能会过拟合;又因为新旧数据集类似,我们期望他们高层特征类似,可以使用预训练网络当做特征提取器,用提取的特征训练线性分类器。


2、新数据集大且和原数据集相似。因为新数据集足够大,可以fine-tune整个网络。


3、新数据集小且和原数据集不相似。新数据集小,最好不要fine-tune,和原数据集不类似,最好也不使用高层特征。这时可是使用前面层的特征来训练SVM分类器。


4、新数据集大且和原数据集不相似。因为新数据集足够大,可以重新训练。但是实践中fine-tune预训练模型还是有益的。新数据集足够大,可以fine-tine整个网络。



实践建议


预训练模型的限制。使用预训练模型,受限于其网络架构。例如,你不能随意从预训练模型取出卷积层。但是因为参数共享,可以输入任意大小图像;卷积层和池化层对输入数据大小没有要求(只要步长stride fit),其输出大小和属于大小相关;全连接层对输入大小没有要求,输出大小固定。


学习率。与重新训练相比,fine-tune要使用更小的学习率。因为训练好的网络模型权重已经平滑,我们不希望太快扭曲(distort)它们(尤其是当随机初始化线性分类器来分类预训练模型提取的特征时)。



相关文章
|
存储 运维 BI
SAP MMBE库存数量与在库序列号数量差异之处理
SAP MMBE库存数量与在库序列号数量差异之处理
SAP MMBE库存数量与在库序列号数量差异之处理
|
5月前
|
缓存 运维 监控
vLLM推理加速指南:7个技巧让QPS提升30-60%
GPU资源有限,提升推理效率需多管齐下。本文分享vLLM实战调优七招:请求塑形、KV缓存复用、推测解码、量化、并行策略、准入控制与预热监控。结合代码与数据,助你最大化吞吐、降低延迟,实现高QPS稳定服务。
1416 7
vLLM推理加速指南:7个技巧让QPS提升30-60%
|
9月前
|
机器学习/深度学习 自然语言处理 测试技术
Qwen3技术报告首次全公开!“混合推理模型”是这样炼成的
近日,通义千问Qwen3系列模型已开源,其技术报告也正式发布。Qwen3系列包含密集模型和混合专家(MoE)模型,参数规模从0.6B到235B不等。该模型引入了“思考模式”与“非思考模式”的动态切换机制,并采用思考预算机制优化推理性能。Qwen3支持119种语言及方言,较前代显著提升多语言能力,在多个基准测试中表现领先。此外,通过强到弱蒸馏技术,轻量级模型性能优异,且计算资源需求更低。所有Qwen3模型均采用Apache 2.0协议开源,便于社区开发与应用。
6283 30
|
新零售 人工智能 视频直播
  AI智能无人直播间带货系统技术开发架构
  无人直播间带货视频:数字化时代的新零售体验
|
自然语言处理 算法 计算机视觉
【计算机视觉】DETR 系列的最新综述!
DEtection TRansformer (DETR)将检测视为集合预测问题,而不需要生成候选区和后处理步骤,从而将TRansformer引入到目标检测任务中
1770 0
SAP MM 为MB51报表增加查询字段
SAP MM 为MB51报表增加查询字段
SAP MM 为MB51报表增加查询字段
SAP MM 公司间退货STO流程后勤部分简述
SAP MM 公司间退货STO流程后勤部分简述
SAP MM 公司间退货STO流程后勤部分简述
SAP 物料主数据分类视图维护了批次分类特性值以后,不允许去批次主数据里覆盖了?
SAP 物料主数据分类视图维护了批次分类特性值以后,不允许去批次主数据里覆盖了?
SAP 物料主数据分类视图维护了批次分类特性值以后,不允许去批次主数据里覆盖了?
SAP SD 基础知识之定价中的条件技术(Condition Technique in Pricing)
SAP SD 基础知识之定价中的条件技术(Condition Technique in Pricing)
SAP SD 基础知识之定价中的条件技术(Condition Technique in Pricing)

热门文章

最新文章