多任务深度学习的三个经验教训

简介: 在神经网络中实现 MTL 时的经验

雷锋网 AI 科技评论按,AZohar Komarovsky,Taboola 算法工程师,致力于研究推荐系统相关的机器学习应用程序。不久前他分享了最近一年关于多任务深度学习的研究经验。雷锋网(公众号:雷锋网) AI 科技评论编译整理如下:

在过去的一年里,我和我的团队一直致力于提高 Taboola Feed 的个性化用户体验。我们使用多任务学习(MTL)来预测同一组输入特性上的多个关键性能指标(KPIs),并在 TensorFlow 中实现了一个深度学习(DL)模型。但是,在我们开始着手这项研究的时候,MTL 对我们来说比现在复杂得多,所以我想分享一些经验教训。

在本文中,我将分享一些在神经网络(NN)中实现 MTL 时具体需要考虑哪些方面的问题,我还将对这些问题提出简单的 TensorFlow 解决方案。

我们想从硬参数共享(hard parameter sharing)的基本方法开始。硬共享意味着我们有一个共享子网,这个子网是特定于任务的。

TB1B63yGMHqK1RjSZJnXXbNLpXa.png

在 TensorFlow 中使用这种模型时,由于它看起来与其他 NN 体系结构没有那么大的不同,您可能会觉得自己有哪里做错了。雷锋网

经验 1-损失合并

我们在 MTL 模型中遇到的第一个挑战是为多个任务定义单个损失函数。虽然单个任务有定义明确的损失函数,但多个任务会带来多个损失。

我们最开始尝试的做法是直接将所有的损失相加。不久我们就发现,当一个任务趋同于好的结果时,其他任务看起来相当糟糕。造成这个现象的原因很简单,因为损失的规模是如此的不同,以至于一个任务主导了整个损失,而其余的任务没有机会影响共享层的学习过程。

一个快速的解决办法是用一个加权和替代损失的直接相加和,使所有的损失对共享层的影响大致相同。然而,这个解决方案涉及另一个超参数,可能需要每隔一段时间调整一次。

幸运的是,我们发现了一篇很棒的论文,论文建议使用不确定性来衡量 MTL 中的损失。具体方法是学习另一个噪声参数,该参数集成在每个任务的损失函数中。这允许 MTL 中有多个任务,并使所有损失达到相同的规模。

通过这种方法,不仅可以得到比加权和更好的结果,而且不需要考虑附加的权重超参数。这篇论文的作者还提供了一个 keras 实现方法。

经验 2-调整学习速率

学习速率是调节神经网络最重要的超参数之一,这是一个常见的规律。所以我们尝试了调优,发现了对不同任务来说最优的调试速率。选择较高的学习率会导致其中一个任务的 dying Relu,而使用较低的学习率会导致另一个任务的收敛缓慢。那我们该怎么办?我们可以让每个特定于任务的子网调整为单独的学习速率,并将共享子网调整为另一个速率。

虽然这听起来很复杂,但实际上相当简单。通常,在 TensorFlow 中训练神经网络时,您可以使用如下方法:

optimizer = tf.train.AdamOptimizer(learning_rate).minimize(loss)

AdamOptimizer 定义了应该如何应用渐变,并最小化计算并应用它们。我们可以用自己的实现来代替最小化,该实现将对计算图中的每个变量使用适当的学习速率:

all_variables = shared_vars + a_vars + b_vars

all_gradients = tf.gradients(loss, all_variables)

shared_subnet_gradients = all_gradients[:len(shared_vars)]

a_gradients = all_gradients[len(shared_vars):len(shared_vars + a_vars)]

b_gradients = all_gradients[len(shared_vars + a_vars):]

shared_subnet_optimizer = tf.train.AdamOptimizer(shared_learning_rate)

a_optimizer = tf.train.AdamOptimizer(a_learning_rate)

b_optimizer = tf.train.AdamOptimizer(b_learning_rate)

train_shared_op = shared_subnet_optimizer.apply_gradients(zip(shared_subnet_gradients, shared_vars))

train_a_op = a_optimizer.apply_gradients(zip(a_gradients, a_vars))

train_b_op = b_optimizer.apply_gradients(zip(b_gradients, b_vars))

train_op = tf.group(train_shared_op, train_a_op, train_b_op)

另外,这个技巧实际上也可以应用于单任务网络。

经验 3-使用评估作为特征

一旦我们通过了创建预测多个任务的 NN 的第一个阶段,我们可能会将某个任务的评估作为另一个任务的结果。这个估计是张量,所以我们可以像连接其他层的输出一样连接它。但是在反向传播中会发生什么呢?

假设任务 A 的估计值作为一个特性传递给任务 B。我们可能并不想将梯度从任务 B 传回任务 A,因为我们已经给了任务 A 标签。

别担心,TensorFlow 的 API 有 tf.stop_gradient,它正是为了解决这个问题而存在的。当计算梯度时,它可以让你传递一个张量列表,你想把它当作常数,这正是我们所需要的。

all_gradients = tf.gradients(loss, all_variables, stop_gradients=stop_tensors)

同样地,这在 MTL 网络中很有用,但它不仅仅在 MTL 网络中有用。只要您想用 TensorFlow 计算一个值,并且需要假设该值是一个常量,就可以使用此技术。例如,当训练生成对抗网络(GANs)时,您不希望在生成对抗性网络的过程中进行反向传播。

via:https://engineering.taboola.com/deep-multi-task-learning-3-lessons-learned/

雷锋网版权文章,未经授权禁止转载。详情见转载须知。

目录
相关文章
|
7月前
|
机器学习/深度学习 数据采集 算法
深度学习和机器学习中针对非时间序列的回归任务,有哪些改进角度?
本文探讨了在深度学习和机器学习中针对非时间序列的回归任务的多种改进策略,包括数据预处理、数据集增强、特征选择、模型选择、模型正则化与泛化、优化器选择、学习率调整、超参数调优以及性能评估与模型解释,旨在提升模型的性能和可解释性。
133 1
深度学习和机器学习中针对非时间序列的回归任务,有哪些改进角度?
|
7月前
|
机器学习/深度学习 数据采集 人工智能
《零基础实践深度学习》基于线性回归实现波士顿房价预测任务1.3.3
这篇文章详细介绍了如何使用线性回归算法实现波士顿房价预测任务,包括数据读取、形状变换、集划分、归一化处理、模型设计、前向计算以及损失函数的计算等步骤,并提供了相应的Python代码实现。
 《零基础实践深度学习》基于线性回归实现波士顿房价预测任务1.3.3
|
5月前
|
机器学习/深度学习 存储 自然语言处理
深度学习之任务序列中的快速适应
基于深度学习的任务序列中的快速适应是指模型在接连处理不同任务时,能够迅速调整和优化自身以适应新任务的能力。这种能力在动态环境和多任务学习中尤为重要,旨在减少训练时间和资源需求。
59 3
|
7月前
|
机器学习/深度学习 算法 前端开发
《零基础实践深度学习》波士顿房价预测任务1.3.3.5 总结
使用Numpy实现梯度下降算法来构建和训练线性模型进行波士顿房价预测的过程,并提供了模型保存的方法,同时提出了几个关于梯度计算、参数更新和神经网络训练的作业题目。
 《零基础实践深度学习》波士顿房价预测任务1.3.3.5 总结
|
6月前
|
机器学习/深度学习 人工智能 算法
操作系统的未来:从多任务到深度学习的演变之路
本文将探讨操作系统如何从处理简单多任务发展到支持复杂的深度学习任务。我们将分析现代操作系统面临的新挑战,以及它们如何适应人工智能和大数据时代的要求。文章不仅回顾过去,也展望未来,思考操作系统在技术演进中的角色和方向。
90 3
|
7月前
|
机器学习/深度学习 算法 数据处理
《零基础实践深度学习》波士顿房价预测任务1.3.3.4训练过程
这篇文章详细阐述了如何使用线性回归对波士顿房价进行预测,包括构建神经网络模型、数据处理、模型设计、训练过程、梯度下降法以及随机梯度下降法(SGD)的应用,并提供了完整的Python代码实现。
|
7月前
|
机器学习/深度学习 算法 程序员
《零基础实践深度学习》波士顿房价预测任务 02
这篇文章通过"波士顿房价预测"任务,介绍了使用Python和Numpy构建神经网络模型的基本思路和操作,首先以线性回归模型为例,解释了神经网络中损失函数的选择和模型的构建过程。
|
7月前
|
机器学习/深度学习 算法 程序员
《零基础实践深度学习》使用飞桨重写波士顿房价预测任务
这篇文章通过使用飞桨(PaddlePaddle)框架重写波士顿房价预测任务,展示了飞桨的易用性和高效性,同时比较了基于Python原生编写模型与使用飞桨框架的异同,让读者体验到飞桨在简化深度学习模型开发方面的强大能力。
|
7月前
|
机器学习/深度学习 自然语言处理 并行计算
|
10月前
|
机器学习/深度学习 自动驾驶 算法
【计算机视觉+自动驾驶】二、多任务深度学习网络并联式、级联式构建详细讲解(图像解释 超详细必看)
【计算机视觉+自动驾驶】二、多任务深度学习网络并联式、级联式构建详细讲解(图像解释 超详细必看)
384 1