过去一年,淘天业务技术同学持续关注技术的前沿和变革,并在研究领域取得了一系列创新成果。
按照计算机协会定义的CCF-A类会议和期刊,我们精选出同学们在数据挖掘领域、机器学习、计算机视觉及多媒体等领域里发表的17篇顶会paper,涵盖了KDD2023 、WWW2023 、IEEE VR2023 、 CVPR2023等多个国际会议。后文将带大家迅速了解这17篇论文的研究成果及其在业务领域内的落地应用,并附上paper全文PDF文件可供下载和阅读。
保持更新,不断迭代,希望你读以下论文时能够为你带来新的思考。
CVPR2023
论文标题:
Video Quality Assessment Based on Swin Transformer with Spatio-Temporal Feature Fusion and Data Augmentation一种基于Swin Transformer的时空特征融合和数据增广的视频质量评价
论文简介:虽然当前视频增强引起了学术界和工业界的广泛关注和研究,但对增强视频的视频质量评估(VQA)的相应研究尚未得到有效解决。视频增强方法通常会改变视频的亮度、对比度、颜色等相关指标,导致主观感知质量的波动,给相关的VQA任务带来挑战。本文提出了一种基于Swin Transformer的时空特征融合的视频质量评价模型,该模型能够充分融合不同阶段的视频特征,并且达到了具有竞争力的模型性能。此外,我们提出了一种有效的数据增广策略,以扩充数据多样性,进一步提高模型性能。实验结果表明,该方法在两个基准VQA数据集上达到了SOTA性能,并在CVPR NTIRE 2023视频增强挑战质量评价赛道获得第一,证明了该方法不仅在增强视频的VQA中很有前景,而且也能够用于通用的VQA任务中。
下载地址:https://openaccess.thecvf.com/content/CVPR2023W/NTIRE/papers/Chen_Video_Quality_Assessment_Based_on_Swin_Transformer_With_Spatio-Temporal_Feature_CVPRW_2023_paper.pdf
论文标题:
DATE: Domain Adaptive Product Seeker for E-commerce
电商场景下的域自适应商品搜寻
论文简介:
直播电商正在快速发展,如果能帮助消费者在琳琅满目的直播间里,快速聚焦定位喜欢的商品并自动检索出商品链接,这将大幅提高用户的购物体验。我们针对全监督商品定位任务,设计了双分支跨模态定位架构,其能同时处理全局视觉以及语音文本两部分信息,并进行充分交互来完成商品坐标的准确定位。此外,由于定位所需的边框标注获取成本很高,我们还探索了利用迁移学习而无需全量标注的无监督域自适应商品定位,这也是学术界的首次研究,我们设计了一个域对齐模块来减少跨域单模态边缘分布及多模态条件分布的差异,并提出了动态伪标注法进一步实现知识迁移。本文为每个模块都进行了充分的实验,所提的商品定位模型在淘宝商品检索与定位数据集都达到了业界最优水平,且已经在阿里巴巴集团-淘宝直播业务中投入使用,在线上服饰类商品A/B测试中实现了人均停留时长提高24%,引导成交金额提高19%,足见其卓越的贡献。
下载地址:
论文标题:
MD-VQA: Multi-Dimensional Quality Assessment for UGC Live Videos
针对UGC直播视频的多维度视频质量评价方法
论文简介:
用户生成内容(UGC)直播视频由于在拍摄过程中经常受到各种失真的困扰,因此呈现出不同的视觉画质。这些源视频在分发给终端用户之前,还会被媒体处理平台进一步压缩和转码,这些过程都会影响视频画质。随着UGC直播视频的蓬勃发展,需要一种有效的视频质量评估(VQA)工具来监控和感知优化直播视频的分发过程。在本文中,我们通过构建首个UGC直播视频质量评价数据集和研发了有效的视频质量评价算法来解决UGC直播视频质量评价问题。我们在淘宝直播业务场景中搜集了 418个原始UGC直播视频,并采用多个不同的比特率来对其压缩,最终构建了包含 3762个不同内容、不同质量的视频质量评价数据集。在该数据集的基础上,我们自研了针对UGC视频的无参考视频质量评价模型 —— MD-VQA,该模型综合了视频的语义、失真、和运动等多维特征,并进行时空域的融合,来衡量视频绝对质量的高低。大量实验结果表明,MD-VQA模型在本文自建数据集和公开UGC视频质量评价数据集上都取得了 SOTA的性能。
下载地址:https://openaccess.thecvf.com/content/CVPR2023/papers/Zhang_MD-VQA_Multi-Dimensional_Quality_Assessment_for_UGC_Live_Videos_CVPR_2023_paper.pdf
ACM MM2023
论文标题:
DiffDance: Cascaded Human Motion Diffusion Model for Dance Generation
DiffDance:针对舞蹈视频生成的级联人体运动扩散模型
论文简介:
听音乐时,人们自然而然地会随着节奏跳舞。然而,受限于人体运动的物理约束和与目标音乐的节奏对齐,自动生成舞蹈是一项具有挑战性的任务。传统的自回归方法在采样过程中引入了累积误差,并且难以捕捉长舞蹈序列的结构关系。为了解决这些限制,我们提出了一种新颖的级联运动扩散模型,称为DiffDance,用于高分辨率、长时间的舞蹈生成。该模型由音乐到舞蹈扩散模型和序列超分辨率扩散模型组成。为了在条件生成中弥合音乐和动作之间的差距,DiffDance采用预训练的音频表示学习模型来提取音乐嵌入,并通过对比损失进一步将其嵌入空间与动作对齐。在训练级联扩散模型时,结合了多个几何损失来限制模型输出的物理合理性,并增加了动态损失权重,在扩散中自适应变化,以促进样本多样性。通过在基准数据集AIST++上进行的多维度实验,我们证明了DiffDance能够生成与输入音乐有效对齐的逼真舞蹈序列。
下载地址:
https://arxiv.org/pdf/2308.02915.pdf
ICLR2023
论文标题:
Generalize Learned Heuristics to Solve Large-scale Vehicle Routing Problems in Real-time
泛化基于学习的启发式算法以实时解决大规模车辆路径问题
论文简介:
大规模路径规划问题(VRP)在物流、交通、供应链和机器人等领域具有广泛的应用。目前基于数据驱动的VRP算法能够实时求解100个节点的VRP问题,但是针对大规模VRP时,仍然面临三大挑战:
- 难以将在小规模VRP上学得的模型泛化到大规模VRP而无需重新训练;
- 难以实时生成大规模VRP的解;
- 难以将全局约束嵌入学得的模型;
为此,我们提出了一种两阶段分割方法(TAM),相较于其他数据驱动方法,我们通过Transformer模型生成子路径序列而不是节点序列,从而将在小规模VRP上学得的模型泛化到实时求解大规模VRP。我们设计了新的Reward和Padding技术,提出了两步强化学习方法来训练我们的TAM。此外,我们提出了一种全局Mask函数,将大规模VRP分割为若干独立的小规模旅行商问题(TSP)同时满足全局约束。因此,我们可以利用并行计算技术快速实时求解小规模的TSP问题。通过大规模的合成算例及实际算例表明,我们的方法能够将在VRP 100数据集上训练得到模型泛化到实时求解超过5000个节点的VRP,同时保持比纯数据驱动方法和传统启发式搜索算法更优的解。
基于TAM技术,我们开发了大规模组合优化求解器Laser。通过结合传统启发式优化算法及强化学习的优势, Laser具有求解规模大(可以求解VRP10000)、求解速度快(可以在10s内求解VRP2000)、泛化性能好(100节点训练的模型可以泛化到10000节点以上)的特点。Laser排线功能成功应用于淘菜菜大规模智能排线(平均超过800个团点,在全国900个以上的仓落地)等业务,Laser切箱功能先后在天猫超市、天猫国际、盒马常温仓包材推荐及冷冻仓自动化装箱以及AliExpress海运装箱等业务落地。
TAM求解框架:
TAM求解示意图:
TAM算法结果:
下载地址:https://openreview.net/pdf/1360725553e9aebf2b149f234ac6d83c46a077d4.pdf
IEEE VR2023
论文标题:
Design and User Experience Evaluation of Product Information in the Context of VR Shopping Environment
扩展现实购物应用中的商品信息设计实现
论文简介:
目前在XR应用中使用3D商品详情页的尝试被认为可以丰富在线购物的体验,因为它提供更加身临其境的体验。但是此类方案在商品信息呈现的设计上仍然保留2D的特点,导致用户使用时由于存在割裂感而无法沉浸到虚拟环境中,进而可能会降低用户体验。因此本研究的目标是探索在XR应用中3D商品信息的不同设计方式以及通过用户实验探究不同设计维度对用户体验的影响。
本研究首先在谷歌、Bing等搜索引擎中广泛搜索包括AR,VR,MR在内的XR购物应用中商品详情页的应用案例构建语料库,同时制定纳入标准以确保收集到的设计案例是具有代表性、多样化的。最终我们收集到了50个符合标准的设计案例。然后,我们对语料库中的设计案例按照不同的维度进行分析和拆解。依据过往研究对信息设计的经验,在该阶段我们把每个设计案例从信息格式、展示模式(信息组成元素)、用户交互、空间关系四个维度进行拆解,得到最初的设计空间。为了使目前的设计空间更加规范化和具有普适性,我们进行了反复迭代,主要将信息组成元素和信息格式两个维度进行合并,作为视觉呈现的两个部分;空间关系维度进行规范化表达。最终的设计空间包含三个维度:视觉呈现、用户交互、空间关系,如图所示。
在任务完成效率方面,信息始终面向用户时能够减少信息因为视角变化而看不到的问题。使用连续型信息格式,即使用面板承载信息的方案也比离散型信息格式的方案普遍用时更短。使用离散信息格式方案的参与者能够得到更好的记忆水平和信息理解程度。使用离散化的信息格式导致了用户更高的空间记忆和本体感知。其次,我们发现增加图片、动效可以减轻用户使用时的总体压力水平。界面上的趣味性会大幅提高。趣味性可以通过唤起消费者在查看信息过程的乐趣和兴奋。连续型信息格式的总体任务负荷较低。多个信息同时界面会显得杂乱无章或者存在被遮挡的情况,因此也会额外增加用户在使用上的负担。在方案吸引力方面,离散型的方案比连续型的方案更具有吸引力。连续型的方案在使用时与传统手机页面差别不大,比较无聊。而离散型的方案通过信息内容与模型相应位置的对应提高了用户对商品的认知。非纯文字的方案在享乐质量上的表现普遍比纯文字方案更好。图片和动效能够增媒体丰富度。
综上所述, VR环境下的商品详情页适用于消费者已经对特定商品感兴趣的场景下,因此符合用户需求和痛点的信息需要选择传递效率更高的呈现方式。在信息表达上利用VR多感官、沉浸式的特性,更多地使用动效,声音或爆炸图的方式代替文字信息可以显著提升用户对商品的感兴趣程度。由于增加了深度这一维度,因此保持可见性和整洁性是3D商品信息设计的重点;查看信息时交互方式的简单和信息层级结构的清晰则能够间接地提升用户体验。
下载地址:
KDD2023
论文标题:
Fragility Index: A New Approach for Binary Classification
Fragility Index :一种二分类的新评价指标
论文简介:
在二元分类问题中,许多常见性能指标旨在评估某些错误超过一定阈值的概率。但是,这些指标只关注超过域值的概率的大小,而忽视了对应的误差的数值大小和超过阈值的程度。而很多实际应用中,误差的数值大小是很有意义的。例如,在疾病检测和信用违约预测中,误差的数值大小反映了模型做出错误预测的置信度(confidence)。为此,我们提出了一个新的指标,即脆弱性指数 (Fragility index, FI),通过捕获误差的大小和风险来评估二元分类器的性能。FI通过对模型产生的大误差施加一个巨大的惩罚,从而降低模型误分类的风险。此外,我们还采用分布式鲁棒优化(distributionally robust optimization)和鲁棒满意度(robust satisficing)的框架,去计算并控制由于样本分布偏移而产生的模型脆弱度(degree of fragility),从而加强模型的范化能力以及处理未观测过样本的能力。对于常见的分布间距离指标(probabilistic distance measures),我们可以很容易地计算并优化FI。同时我们也在实际数据集上进行了模拟实验,体现了FI的优秀性质和作为模型选择指标的优势。和其他指标选择的分类器相比,FI选择的分类器能更显著的增强模型的鲁棒性并减小出现较大误差的风险。
下载地址:https://dl.acm.org/doi/pdf/10.1145/3580305.3599356
【前沿解读】17篇2023淘天业务技术A类顶会论文(下):https://developer.aliyun.com/article/1443502