❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!
🥦 微信公众号|搜一搜:蚝油菜花 🥦
原文链接:https://mp.weixin.qq.com/s/16_3VlrKWjk2AAjPbo4CwQ
🚀 快速阅读
- 功能:支持本地视频分析、关键帧提取、音频转录和自然语言描述。
- 技术:结合 Llama 的 11B 视觉模型和 OpenAI 的 Whisper 模型,实现帧提取与音频处理。
- 应用:适用于内容审核、视频管理、教育培训、安全监控和媒体娱乐等领域。
正文(附运行示例)
video-analyzer 是什么
video-analyzer 是一款开源的视频分析工具,结合了 Llama 的 11B 视觉模型和 OpenAI 的 Whisper 模型,能够从视频中提取关键帧、转录音频内容,并生成详细的视频描述。该工具支持完全本地运行,无需依赖云服务或 API 密钥,同时也可以通过 OpenRouter 的 LLM 服务提高处理速度和扩展性。
video-analyzer 的应用场景广泛,包括监控、广告分析、内容分类等。它能够帮助用户深入分析视频内容,生成高质量的元数据和描述,便于后续的内容管理和检索。
video-analyzer 的主要功能
- 本地视频分析:无需云服务或 API 密钥,支持在本地环境中处理视频。
- 关键帧提取:智能地从视频中提取关键帧,保留重要信息。
- 音频转录:使用 OpenAI 的 Whisper 模型进行高质量音频转录。
- 自然语言描述:生成视频内容的详细描述,便于理解和分析。
- 音频处理:自动处理低质量音频,确保转录的准确性。
video-analyzer 的技术原理
1. 帧提取与音频处理:
- 使用 OpenCV 库提取视频中的关键帧。
- 通过 Whisper 模型处理音频,进行转录,并处理低质量音频。
2. 帧分析:
- 基于 Llama 的 11B 视觉模型对每个关键帧进行分析,提取视觉信息。
- 分析时考虑前一帧的上下文,保持视频内容的连贯性。
3. 视频重建:
- 将帧分析结果按时间顺序组合,形成视频的逐帧描述。
- 整合音频转录内容,使用视频的第一帧设定场景背景。
- 创建综合的视频描述,包括视觉信息和音频信息。
如何运行 video-analyzer
安装与配置
1. 克隆仓库:
git clone https://github.com/byjlw/video-analyzer.git
cd video-analyzer
2. 创建并激活虚拟环境:
python3 -m venv .venv
source .venv/bin/activate # Windows: .venv\Scripts\activate
3. 安装依赖:
pip install .
4. 安装 FFmpeg:
- Ubuntu/Debian:
sudo apt-get update && sudo apt-get install -y ffmpeg
- macOS:
brew install ffmpeg
- Windows:
choco install ffmpeg
运行示例
使用默认的 Ollama 服务进行分析:
video-analyzer path/to/video.mp4
使用 OpenRouter 服务进行分析:
video-analyzer path/to/video.mp4 --openrouter-key your-api-key
资源
- GitHub 仓库:https://github.com/byjlw/video-analyzer
- Ollama 安装指南:https://ollama.ai
- OpenRouter 官网:https://openrouter.ai
❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!
🥦 微信公众号|搜一搜:蚝油菜花 🥦