开发者社区> 问答> 正文

“基于对比多模态预训练理解中文视频和文本”中,针对视频-文本进行预训练主要存在的挑战,提出了什么解决

“基于对比多模态预训练理解中文视频和文本”中,针对视频-文本进行预训练主要存在的挑战,提出了什么解决方案?

展开
收起
游客zvexcvxjsyxmm 2022-03-29 09:48:52 374 0
来自:大淘宝技术
1 条回答
写回答
取消 提交回答
  • 本文提出一个基于重建和对比学习任务的多模态预训练模型VICTOR,并建立千万数量级的高质量中文视频-文本数据集。VICTOR以Transformer为主体,设计出基于重建和基于对比学习的七个任务训练模型。基于重建的任务包括掩码语言建模、掩玛句子生成、掩码帧序列建模和掩码句子序列建模四个任务,充分捕捉视频和文本的序列信息和交互信息;基于对比的任务包括对偶的视频-文本对齐、视频内的掩码帧对比学习和视频间的掩码帧对比学习三个任务,在避免简单的视频-文本对齐任务会融合不确定的多模态信息的同时,增强视频内的时空信息融合。VICTOR模型拥有上亿级参数,在构造的千万数量级的淘系视频-文本数据集中进行预训练,并在多个下游任务(如视频文本匹配、视频推荐、标题生成)获得了SOTA的性能提升。VICTOR模型的设计和提出,有效促进了预训练在中文视频-文本领域的进展,并可在多个视频相关业务(如视频推荐、视频分类等)广泛应用。

    答复内容摘自《2021技术人的百宝黑皮书》,这本电子书收录开发者藏经阁 下载连接:https://developer.aliyun.com/ebook/download/7436

    2022-03-29 17:01:16
    赞同 展开评论 打赏
问答地址:
来源圈子
更多
收录在圈子:
+ 订阅
问答排行榜
最热
最新

相关电子书

更多
机器学习中,使用Scikit-Leam简单处理文本数据 立即下载
基于视觉推理的视频理解 立即下载
基于神经网络的语言合成 立即下载