热门
包含图像描述、文本生成图片、版面分析、多模态表征、视觉问答、文档理解等多个领域
[Vript](https://github.com/mutonix/Vript) 是一个大规模的细粒度视频文本数据集,包含12K个高分辨率视频和400k+片段,以视频脚本形式进行密集注释,每个场景平均有145个单词的标题。除了视觉信息,还转录了画外音,提供额外背景。新发布的Vript-Bench基准包括三个挑战性任务:Vript-CAP(详细视频描述)、Vript-RR(视频推理)和Vript-ERO(事件时序推理),旨在推动视频理解的发展。
aigc
请问有没有能撰写期刊学术论文的模型和数据?
本文对大型语言模型进行综合评测,从代码相关性、人类价值观和知识常识三个角度展开分析。每个领域提出了3个问题,以测试模型的效果。
王鹏 达摩院高级算法工程师