文档备案控制台

开发者社区问答正文

“基于对比多模态预训练理解中文视频和文本”中，针对视频-文本进行预训练主要存在哪些挑战？

“基于对比多模态预训练理解中文视频和文本”中，针对视频-文本进行预训练主要存在哪些挑战？

展开

收起

游客zvexcvxjsyxmm 2022-03-29 09:48:35 454 版权

来自：大淘宝技术

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

答题百晓生

第一，和静态图像不同，视频拥有动态的时空序列关系，直接将图像-文本的预训练方法移植到视频-文本领域并不足以捕捉这些复杂的关系信息；第二，预训练模型中广泛存在的视频-文本对齐任务和其它基于掩码的重建任务存在冲突；第三，大规模、高质量的中文视频-文本数据集的缺乏限制了预训练模型在中文领域的发展。

答复内容摘自《2021技术人的百宝黑皮书》，这本电子书收录开发者藏经阁下载连接：https://developer.aliyun.com/ebook/download/7436

2022-03-29 17:01:16

赞同展开评论

问答地址：

开发者社区 > 大淘宝技术 > 问答

相关问答

Qwen-omni-turbo-realtime 视频流经常断联

309

0

0

现在的大模型可以阅读一本书长度的文本吗？

1026

1

0

大模型如何对文本进行token计算，有提供api吗

740

1

0

ModelScope有 qwen-agent 的讲解视频么？

209

1

0

阿里云语音AI CosyVoice大模型看上去是实时的吗，没有看到像长文本那样异步的回调后可以保存？

237

0

0

阿里云语音AI 语音合成CosyVoice大模型和长文本语音合成有什么区别？

585

1

0

通义听悟大模型可以对视频画片进行逐帧切片嘛？

254

0

0

多模态词汇表是什么？它如何用于视频和音频的生成？

204

1

0

大模型在生成文本方面有哪些革命性突破？

186

1

0

阿里百炼大模型平台为啥不支持上传txt格式的数据集？训练模型需要用到大量的txt文本，这种怎么办？

374

1

0

收录在圈子:

大淘宝技术

1792

+ 订阅

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

【精品问答】python技术1000问(1)

新手如何进行OSS 图片处理 CDN 加速？

qoder 资源包买完找不到记录也不知道再用，究竟是谁设计的，没见过这样的设计，

需要支持自定义Kimi k3 API

我购买了pro+套餐，在vs code中使用提示限额，需要怎么处理？

WordPress站点怎么进行速度优化？

相关解决方案

更多

网站文本内容安全检测

一键生成PPT及讲解视频

多模态数据信息提取

基于 Spark 和 PyTorch 的模型训练方案

ES Serverless 构建多模态图像检索

还有其他疑问?