第29届ACM国际多媒体会议(ACM International Conference on Multimedia)于24日在成都落幕,作为多媒体领域的国际顶级学术会议,本次会议吸引了全球来自中国、美国、德国、澳大利亚、瑞典、法国、日本等19个国家和地区1000余名学者参会,共收到来自近40个国家,共计2000余篇论文,创下了ACM的规模纪录。
蚂蚁保险科技与中国科学院自动化研究所联合组队,参加了多模态认知技术挑战赛“MuSe2021”两个赛道的比赛,摘得两项冠军。
MuSe竞赛全称为The Multimodal Sentiment Challenge,由英国帝国理工学院、德国奥格斯堡大学以及新加坡南洋理工大学等高校共同举办。该挑战赛源于著名的AVEC(Audio-Visual Emotion Challenge)竞赛,自2020年开始在ACM MM会议期间定期举办,是多模态认知技术与心理学交叉学科的顶级赛事。相比于之前的AVEC竞赛,MuSe竞赛面向自然场景和复杂环境,更加注重结合语义信息的多模态深度融合能力的评测。
今年,MuSe2021吸引了来自全球的32支队伍参赛,共分为四个赛道,蚂蚁保险科技和与中国科学院自动化研究所组成的参赛队伍参加了其中MuSe-Wilder和MuSe-Sent 两个赛道。在这两个赛道中,参赛者基于官方提供的自然场景下音视频和文本的多模态数据,在唤醒和效价两个维度,分别预测出连续和离散标签。最终,MuSe-Wilder赛道的平均CCC指标相比第二名高0.1191,MuSe-Sent赛道的平均Macro-F1指标相比第二名高0.0671。
比赛中,蚂蚁保险科技团队使用了声学、视觉、文本各模态的多种low-level手工设计特征与high-level深度学习表征,并提出一种使用self-attention机制增强的BiLSTM模型,对特征序列中的复杂时序依赖进行建模。同时,采用与评测目标一致的CCC loss和F1 loss替代回归与分类问题中常用的均方误差和交叉熵损失函数,显著提升了模型性能。
在多模态信息融合阶段,业界主流技术分为前融合与后融合两种,由于在该比赛中特征维度过高,前融合效果不佳,蚂蚁保险科技团队采用了后融合方案,引入第二级BiLSTM模型,对每个独立模态的预测结果进行融合,获得了显著优于单模态预测的性能。
本次赛事涉及人工智能与心理学的交叉学科,在自然场景的多模态交互中的认知技术是业界的研究热点,众多国际顶级科研机构与科技企业近年来均进行了大力投入。
目前,多模态认知与理解技术已经落地于蚂蚁集团的保险、理财、安全、客服等多领域中。譬如,在碎屏险增信、安全反欺诈等场景中起到提升用户体验的积极作用。未来也将在重疾险理赔中发挥重要作用。