SIGIR阿里论文 | 可视化理解深度神经网络CTR预估模型

简介: 尽管业界对于图像处理和自然语言处理领域,在算法可解释性方向上已经取得了一些进展,但对于电商与广告领域,目前还是空白。另一方面,深度学习技术已经开始被大规模应用到广告业务中。广告是很多互联网现金流的重要来源,是核心业务。

image

小叽导读:尽管业界对于图像处理和自然语言处理领域,在算法可解释性方向上已经取得了一些进展,但对于电商与广告领域,目前还是空白。另一方面,深度学习技术已经开始被大规模应用到广告业务中。广告是很多互联网现金流的重要来源,是核心业务。深度神经网络模型是核心业务中的核心模块,有效理解和评估这一“黑盒”算法变得非常重要。下面,我们针对可视化理解深度神经网络CTR预估模型进行探讨。

主要作者:郭霖、叶卉、苏文博、刘贺欢、孙凯、向杭、侯俊

▌背景

深度学习在研究和应用领域都已取得了重大的进展。但迄今为止,深度学习算法仍不够透明,多被做“黑盒”使用。近年来,人们开始致力于去更透彻地理解深度学习内部的复杂机理,从而确保算法安全可靠或达到进一步优化的目的。

由于人类对于世界的认知和感受主要来自于视觉,良好的可视化可以有效地帮助人们理解深度神经网络,并进行有效的评估、优化和调节。而可视化的前提是对模型进行相关数据透出,从而进行可视化分析评估,最终使得神经网络从“黑盒”向“白盒”过渡。针对这些挑战,我们搭建了一个面向工业级大规模深度学习应用的可视化分析平台—DeepInsight。

我们将针对电商场景下的广告点击率(CTR)预估,以一个简单但具有代表性的深度神经网络模型为例,举例介绍在几个典型而重要的问题上模型可视化分析的应用:1.泛化效果评估;2.特征设计;3.模型结构设计。

大多数图像或自然语言处理的研究着眼于从样本粒度出发去可视化理解模型。区别于这些研究场景,工业界的CTR预估面对的是海量规模的数据与特征、有偏的带标签数据、稀疏而复杂多样的信号模式,而最终效果评估首要关注的是宏观的商业指标。从业务特点出发,我们以统计信号入手,探索理解模型在整个目标数据集上的宏观表现。相关实验工作的细节请参阅我们的英文版论文(点击文末“阅读原文”进入)。

▌ 平台介绍

DeepInsight平台面向工业级深度学习算法研发与应用,提供完善的模型训练任务生命周期管理,致力于提供高效全面的数据透出方式,并以深度学习数据的多维度可视化、大规模数据实时分析、数据再建模等方向作为核心功能。

平台基于分布式微服务集群化部署,由前端WEB平台+后端微服务+深度学习组件等三个子系统构成,各个微服务实例之间是隔离的,互不影响;目前已接入Tensorflow和MXNet两个大规模并行训练框架,支持多任务学习、迁移学习、强化学习、GAN、模型融合等复杂场景,旨在通过数据透出及可视化等手段,提高神经网络的可解释性,解决模型调试及问题定位分析等系列问题;以生命周期管理的方式执行训练任务,从而提供一站式的可视化评测服务。平台在赋能业务的同时,业务也会将后期处理过的数据反馈给平台,从而构建以DeepInsight为基础数据核心的AI可视化生态圈。

image

▌ 算法实验

不失代表性,模型采用简单的GwEN式结构[1]。对于每条输入样本,稀疏特征ID被映射为低维稠密的Embedding向量,然后以特征组为单位将每组的特征ID Embedding进行sum pooling操作,得到该特征组的Embedding向量。各个特征组的Embedding向量被连接在一起,作为输入传给后续的全连接层。模型总共有4个全连接隐层并以Relu为激活函数。输出层通过sigmoid操作输出预估点击率(PCTR)。

对于训练至不同阶段的模型,我们通过动态透出的方式收集模型内部在不同数据集上的状态数据,以此为可视化分析的基础。

▌ 泛化效果与神经元状态波动

众所周知,深度神经网络有强大的拟合能力。随着训练进行,模型会不断地去拟合训练数据,对输入信息中的微小差别越来越敏感。给定模型,每个神经元的状态由样本输入决定。数据集中不同样本输入的变化导致神经元状态的波动,这一波动的程度反应了模型对于输入信息的敏感程度。另一方面,模型对训练数据过于敏感会降低其泛化能力。我们的可视化清晰地展现了模型泛化效果与神经元状态波动程度之间的联系。

下图展示了模型第四隐层中每个神经元状态值的平均波动程度,对比了不同训练阶段的模型在训练与测试集上的统计表现。在过拟合之前,神经元的波动程度保持相对稳定,训练/测试集间较为一致。过拟合时,波动程度显著上升,并且训练集明显强于测试集。这正反映了过拟合状态下的模型对训练数据过度敏感。


image

我们聚合出整个隐层的所有神经元的平均波动程度,发现该指标可以与模型在不同数据集上的效果变化(AUC)相关联。神经元的波动程度为我们提供了一种理解与检测过拟合的手段。另外,这个指标计算不需要标签,因此可以帮助我们在一批拿不到点击反馈的数据集上的评估模型效果。

▌ 特征影响力

比起传统的逻辑回归模型,深度神经网络的一个优点是具有从输入中自动挖掘非线性交叉特征的能力。但是实践发现,输入特征本身的质量好坏也极大地影响着模型的效果。

什么特征对模型比较重要?对于传统的逻辑回归模型,我们可以通过特征的权重来认识其重要性。但是,这对于深度神经网络是不适用的。

我们利用梯度信息来认识各个特征组对模型的影响。将全连接网络的输入针对模型输出(PCTR)求导。该梯度的强度表示了模型的输出预估对于该输入的微小变动的敏感度,从而可以反映出该输入对于模型的影响力。梯度越强,表明该输入的对模型的影响越大。以每个特征组聚合各自Embedding所对应的梯度的平均强度,可以描述该特征组对模型的影响。

下图对比了两个不同状态的模型(未过拟合Vs 过拟合)中的各个特征组的平均影响力。可以清晰地看到两个状态的区别:过拟合时模型对少量几组特征过度敏感,尤其是编号为1和11的特征组。事实上,这两个都是具有海量ID取值的单个特征如user ID,所需参数空间极大,而本身携带的可泛化信息确实很少。

image

▌ 隐层的效用与其信息表征

我们通过可视化隐层的输出向量,展示模型对输入信息的综合表征,以帮助我们了解模型的内在机制以及模型结构对于效果的影响。下图将不同隐层的输出向量经过tsne投影到2维平面。与[2]针对图像分类的可视化结果不同,我们没有观察到点击与不点击两类样本点的分离。这是由我们场景下样本信息的高噪声所决定的。但是,可以看到点击样本点有空间聚集。第三层比第二层有更明显的聚集,表明第三层表征的信息更有区分能力。但是第四层却并没有显示出进一步提升。

反过来指导模型结构设计,我们的实验证明训练没有第四层的模型也可以达到与四隐层模型相近的效果。

image

▌ 隐层的效用与其表征再建模

上节介绍了了解每个隐层对于模型分类效果带来的收益。我们的DeepInsight平台可以让我们很方便地对透出数据进行再建模,来进一步深化对模型结构的认识。

我们使用Alain和Bengio提出的探测层方法[3],将隐层对于样本的表征向量作为输入特征,同样以样本的点击反馈为标签,训练逻辑回归probe模型。对比不同隐层所训练出的probe模型的效果,可以帮助我们了解隐层结构对模型效果的作用。如下图,可以明显的看到,从第一到第三层,隐层输出信息对于点击行为的区分力逐层提升。第四层并没带来明显收益,与上节的结论一致。

image

▌小结

我们在电商广告场景下探索深度学习可视化与可解释性,通过分析深度神经网络模型内部数据,打开这个“黑盒”,以求深入理解模型的内部状态与机制。这些探索被成功地落地到平台服务,从而助力算法研发与业务应用。

原文发布时间为:2018-07-02
本文作者:阿里巴巴机器智能
本文来自云栖社区合作伙伴“ 阿里巴巴机器智能”,了解相关信息可以关注“ 阿里巴巴机器智能”。

相关文章
|
机器学习/深度学习 人工智能 自然语言处理
满足不同下游任务特征需求!Sea AI Lab 提出多粒度自监督学习框架Mugs,刷新多项SOTA(2)
满足不同下游任务特征需求!Sea AI Lab 提出多粒度自监督学习框架Mugs,刷新多项SOTA
226 0
|
4月前
|
人工智能 自然语言处理 算法
首届大模型顶会COLM 高分论文:偏好搜索算法PairS,让大模型进行文本评估更高效
【8月更文挑战第26天】在人工智能领域,尽管大型语言模型(LLMs)作为自动评估工具展现了巨大潜力,但在自然语言生成质量评估中仍存偏见问题,且难以确保一致性。为解决这一挑战,研究者开发了Pairwise-preference Search(PairS)算法,一种基于不确定性的搜索方法,通过成对比较及不确定性引导实现高效文本排名,有效减少了偏见、提升了评估效率和可解释性。PairS在多项任务中表现出色,相较于传统评分法有显著提升,为自然语言处理评估提供了新思路。更多详情参阅论文:https://arxiv.org/abs/2403.16950。
82 4
|
2月前
|
机器学习/深度学习 搜索推荐 算法
深度学习-点击率预估-研究论文2024-09-14速读
深度学习-点击率预估-研究论文2024-09-14速读
51 0
|
2月前
|
机器学习/深度学习 搜索推荐 算法
机器学习-点击率预估-论文速读-20240916
机器学习-点击率预估-论文速读-20240916
42 0
|
3月前
|
机器学习/深度学习 搜索推荐
CIKM 2024:LLM蒸馏到GNN,性能提升6.2%!Emory提出大模型蒸馏到文本图
【9月更文挑战第17天】在CIKM 2024会议上,Emory大学的研究人员提出了一种创新框架,将大型语言模型(LLM)的知识蒸馏到图神经网络(GNN)中,以克服文本图(TAGs)学习中的数据稀缺问题。该方法通过LLM生成文本推理,并训练解释器模型理解这些推理,再用学生模型模仿此过程。实验显示,在四个数据集上性能平均提升了6.2%,但依赖于LLM的质量和高性能。论文链接:https://arxiv.org/pdf/2402.12022
89 7
|
4月前
|
机器学习/深度学习 自然语言处理 测试技术
87.8%准确率赶超GPT-4o登顶!谷歌DeepMind发布自动评估模型FLAMe
【8月更文挑战第21天】谷歌DeepMind推出的FLAMe(Foundational Large Autorater Models)是一种基于深度学习的自动评估模型,旨在通过分析输入文本与参考答案的差异来评估大型语言模型(LLMs)的输出质量。FLAMe采用多任务学习方法,在涵盖500万个手工评分的100多种质量评估任务上训练,展现出强大的泛化能力。在RewardBench基准测试中,FLAMe以87.8%的准确率超越GPT-4等先进模型。这一突破不仅降低了人工评估成本,还提高了评估效率,为自然语言处理等领域带来革新。
64 1
|
4月前
|
机器学习/深度学习 存储 运维
ICML 2024:清华提出时间序列大模型:面向通用时序分析的生成式Transformer
【8月更文挑战第7天】在2024年ICML大会上,清华大学团队推出“时间序列大模型(LTSM)”——Timer,一种处理大规模时间序列数据的生成式Transformer。该模型通过预训练学习通用特征,支持多种任务如预测与异常检测。Timer采用统一的数据格式S3处理异构序列,并在数据稀缺场景下展现出色性能。尽管如此,模型泛化能力与计算效率仍有待优化。论文详情参见:https://arxiv.org/abs/2402.02368。
1068 4
|
7月前
|
人工智能
ICLR 2024:鸡生蛋蛋生鸡?再论生成数据能否帮助模型训练
【4月更文挑战第3天】北京大学研究团队在ICLR 2024会议上提出了“自适应膨胀”(AdaInf)策略,改善对比学习效果。该策略针对数据膨胀(使用扩散模型生成图像增强)可能导致对比学习性能下降的问题,通过动态调整数据增强强度和混合比例,提升多种对比学习方法的性能。实验显示,AdaInf在不使用外部数据的情况下,使CIFAR-10线性准确率达到94.70%,刷新纪录。研究还揭示了数据增强与数据膨胀的互补关系,以及它们如何影响泛化误差。然而,AdaInf在大量生成数据和不同质量数据上的应用仍存在局限性。
89 3
ICLR 2024:鸡生蛋蛋生鸡?再论生成数据能否帮助模型训练
|
机器学习/深度学习 算法 计算机视觉
NeurIPS 2022 | 视觉长尾学习模型为何无法较好地落地?
NeurIPS 2022 | 视觉长尾学习模型为何无法较好地落地?
223 0
NeurIPS 2022 | 视觉长尾学习模型为何无法较好地落地?
|
机器学习/深度学习 编解码 人工智能
CVPR 2023 | 谷歌、MIT提出统一框架MAGE:表征学习超MAE,无监督图像生成超越 Latent Diffusion
CVPR 2023 | 谷歌、MIT提出统一框架MAGE:表征学习超MAE,无监督图像生成超越 Latent Diffusion
134 0
下一篇
DataWorks