“基于对比多模态预训练理解中文视频和文本”中,针对视频-文本进行预训练主要存在的挑战,提出了什么解决方案?
本文提出一个基于重建和对比学习任务的多模态预训练模型VICTOR,并建立千万数量级的高质量中文视频-文本数据集。VICTOR以Transformer为主体,设计出基于重建和基于对比学习的七个任务训练模型。基于重建的任务包括掩码语言建模、掩玛句子生成、掩码帧序列建模和掩码句子序列建模四个任务,充分捕捉视频和文本的序列信息和交互信息;基于对比的任务包括对偶的视频-文本对齐、视频内的掩码帧对比学习和视频间的掩码帧对比学习三个任务,在避免简单的视频-文本对齐任务会融合不确定的多模态信息的同时,增强视频内的时空信息融合。VICTOR模型拥有上亿级参数,在构造的千万数量级的淘系视频-文本数据集中进行预训练,并在多个下游任务(如视频文本匹配、视频推荐、标题生成)获得了SOTA的性能提升。VICTOR模型的设计和提出,有效促进了预训练在中文视频-文本领域的进展,并可在多个视频相关业务(如视频推荐、视频分类等)广泛应用。
答复内容摘自《2021技术人的百宝黑皮书》,这本电子书收录开发者藏经阁 下载连接:https://developer.aliyun.com/ebook/download/7436
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。