StoryTeller:字节、上海交大、北大共同推出的全自动长视频描述生成一致系统

本文涉及的产品
图像搜索,7款服务类型 1个月
简介: StoryTeller是由字节跳动、上海交通大学和北京大学共同推出的全自动长视频描述生成系统。该系统通过音频视觉角色识别技术,结合低级视觉概念和高级剧情信息,生成详细且连贯的视频描述。StoryTeller在MovieQA任务中展现出比现有模型更高的准确率,适用于电影制作、视频内容分析、辅助视障人士等多个应用场景。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

系统功能:基于音频视觉角色识别技术,生成详细且连贯的长视频描述。
技术优势:在MovieQA任务中准确率比最强基线Gemini-1.5-pro高9.5%。
应用场景:适用于电影制作、视频内容分析、辅助视障人士等多个领域。

正文(附运行示例)

StoryTeller 是什么

公众号: 蚝油菜花 - StoryTeller

StoryTeller是由字节跳动、上海交通大学和北京大学共同推出的系统,旨在基于音频视觉角色识别技术改善长视频描述的质量和一致性。该系统结合低级视觉概念和高级剧情信息,生成详细且连贯的视频描述。

StoryTeller由视频分割、音频视觉角色识别和描述生成三个主要模块组成。这些模块能够有效处理数分钟长的视频,并在MovieQA任务中展现出比现有模型更高的准确率,比最强基线Gemini-1.5-pro高9.5%的准确率。

StoryTeller 的主要功能

  • 视频分割:将长视频切割成多个短片段,保持每个片段的独立性和完整性。
  • 音频视觉角色识别:结合音频和视觉信息,识别视频中对话对应的角色。
  • 描述生成:为每个视频片段生成详细的描述,整合成整个长视频的连贯叙述。
  • 数据集构建:创建并使用MovieStory101数据集,提供长视频描述的训练和测试数据。
  • 自动评估:基于MovieQA,用GPT-4自动评估视频描述的准确性和质量。
  • 模型训练与微调:训练多模态大型语言模型,提高角色识别和视频描述的准确性。
  • 全局解码:确保同一角色在不同视频片段中保持一致的识别结果。

StoryTeller 的技术原理

  • 多模态融合:整合视觉(视频帧)、音频(对话)和文本(字幕和描述)信息,全面理解视频内容。
  • 音频分离和角色ID分配:用音频嵌入模型对每个对话进行嵌入,基于聚类算法分配全局ID,将相似的音频嵌入分配相同的ID,表示同一角色。
  • 音频视觉角色识别模型:用大型语言模型(如Tarsier-7B)结合OpenAI的Whisper-large-v2音频编码器,将每个音频ID映射到特定的角色。
  • 全局解码算法:在推理时,确保不同片段中相同角色的全局ID映射到一致的角色名称,提高角色识别的准确性。
  • 视频描述生成:用识别结果作为输入,基于大型语言模型生成每个片段的详细描述,并整合成完整的视频描述。

如何运行 StoryTeller

1. 生成视频帧和音频文件

python script/preprocess/preprocess.py
  • 输入视频路径:data/video
  • 输出帧路径:data/frame
  • 输出音频路径:data/audio

2. 将3分钟视频片段分割成小段

pip install scenedetect
scenedetect -i movie.mp4 -o data/raw_data/scene_detect -q detect-adaptive -t 2.0 list-scenes
python script/scene_split/scene_split.py
python script/scene_split/update_scene_split.py

3. 生成每个角色的参考照片

对于MovieQA数据集,已提供每个片段的演员列表。对于其他电影,可以从IMDb获取演员列表并使用面部识别算法。

4. 进行全局音频分离

python script/global_diarization/eval_embedding.py --input_file data/global_diarization/embeddings.jsonl
python script/global_diarization/update_diarization.py --input_file data/global_diarization/embeddings.jsonl --output_file data/global_diarization/diarization_id.jsonl

5. 音频视觉角色识别

python script/audio_visual_diarization/gen_infer.py
python tasks/inference_quick_start.py --model_name_or_path checkpoints/Whisper-large-v2-Tarsier-7B-character-identification --input_path data/audio_visual_diarization/data.jsonl --output_path data/audio_visual_diarization/0.jsonl
python script/audio_visual_diarization/alignment.py
python tasks/inference_quick_start.py --model_name_or_path checkpoints/Whisper-large-v2-Tarsier-7B-character-identification --input_path data/audio_visual_diarization/align_data/data.jsonl --output_path data/audio_visual_diarization/correct/0.jsonl

6. 长视频描述生成

python script/long_video_description/gen_infer.py
python tasks/inference_quick_start.py --model_name_or_path checkpoints/Tarsier-7B-description-generation --input_path data/long_video_description/data.jsonl --output_path data/long_video_description/0.jsonl
python dense_description.py
python script/long_video_description/eval_qa_accuracy.py --pred_caption_path result/tarsier/dense_caption_name.json --out_path result/tarsier/qa_name.jsonl

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
3月前
|
自然语言处理 数据管理 大数据
发布!首个月球专业大模型来了
在2024数博会上,中国科学院地球化学研究所与阿里云联合发布国际首个“月球科学多模态专业大模型”(简称“月球专业大模型”)。
74 9
|
人工智能 移动开发 搜索推荐
祝贺!中华保险新一代车险系统正式上线
祝贺!中华保险新一代车险系统正式上线
224 0
|
存储 人工智能 安全
【年终特辑】看见科技创新力量 洞见时代创业精神—企业服务—大端智能:硬件设备+增值服务,两端发力构建智慧型社区
【年终特辑】看见科技创新力量 洞见时代创业精神—企业服务—大端智能:硬件设备+增值服务,两端发力构建智慧型社区
127 0
|
JavaScript 小程序 前端开发
一条推特里,用280个字符编程!全球首个云端8位计算机,树莓派创始人玩得很开心
一条推特里,用280个字符编程!全球首个云端8位计算机,树莓派创始人玩得很开心
205 0
|
传感器 机器学习/深度学习 算法
准!武汉大学和高德组队 拿下国际顶赛“车载环境下的手机定位”组别冠军
武汉大学和高德联合团队借助大数据挖掘以及人工神经网络的帮助,采用相对较新的VDR核心技术,结合车辆特殊的运动模式设计模型和方程,降低标定偏差,有效避开了硬件性能不足的缺陷,充分利用数据后处理优势进一步提升轨迹位置精度的思路解题并夺得了冠军。
准!武汉大学和高德组队 拿下国际顶赛“车载环境下的手机定位”组别冠军
|
数据采集 人工智能 达摩院
阿里巴巴达摩院重磅推出【足帮帮】3D脚型扫描仪,10秒输出足部检测报告
随着新零售消费方式牵引整个消费体系的变革,零售行业的升级和大健康消费需求的爆发。数字化+AI智能化也成为了企业在市场中取胜的重要基石。“足帮帮”阿里巴巴达摩院,率先打造3D足部建模检测,AR体验的智能制造的一云四端解决方案。基于三维视觉AI技术实现足部健康还原检测,致力于用人工智能技术实现鞋类企业的降本增效,配合行业科研和医疗健康产业的方案升级。
4066 0
阿里巴巴达摩院重磅推出【足帮帮】3D脚型扫描仪,10秒输出足部检测报告
|
供应链 安全 API
『功守道』软件供应链安全大赛·C源代码赛季启示录
软件供应链安全,这可以说是一个新近的人造的概念热词。泛泛来讲,如今的软件系统中任何一方都不是孤立的;套用到企业的场景,就有了供应链的概念。
3601 0
阿里巴巴取代腾讯成为新的“港股之王”;果冻有家,房联网概念的平台化应用。
阿里巴巴 昨日,阿里巴巴在港交所主板挂牌上市,开盘涨超6.25%,随后涨幅一度超过7%报189港元,阿里巴巴总市值超4万亿港元,腾讯目前市值约为3.27万亿港元。阿里巴巴取代腾讯成为新的“港股之王”。
278 0
哈工大团队世界首创陶瓷3D打印技术:可打印出任何一种陶瓷产品
据报道,纳米结构陶瓷粉体技术由哈尔滨工大材料院王铀教授团队研制,属于世界首创,这项技术可使3D打印机打印出任何一种陶瓷产品,甚至已经消失毁损的珍贵陶瓷艺术品。 王铀团队研制的纳米陶瓷涂层材料比Metco常规结构的陶瓷涂层有着高出1倍的韧性、4-8倍的耐磨性、1-2倍的结合强度和抗热震性能、10倍的疲劳性能、较高的抗腐蚀能力和优异的可加工性能,且具有生产时间短、成本低、环境友好,可在许多应用领域替代对环境有害的电镀硬铬层等优点。
1554 0

热门文章

最新文章

下一篇
无影云桌面