video-subtitle-master:开源字幕生成神器!批量生成+AI翻译全自动,5分钟解放双手

本文涉及的产品
图像搜索,任选一个服务类型 1个月
简介: video-subtitle-master 是一款开源AI字幕生成工具,支持批量为视频或音频生成字幕,并可将字幕翻译成多种语言。它集成了多种翻译服务和语音识别技术,适合视频创作者、教育领域和个人娱乐使用。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦


🎧 “视频创作者福音!开源AI字幕生成工具,一键批量生成+翻译字幕,提升内容传播效率!”

大家好,我是蚝油菜花。你是否也遇到过——

  • 👉 视频制作完成后,手动添加字幕耗时耗力
  • 👉 需要将字幕翻译成多种语言,但翻译工具不够便捷
  • 👉 想要批量处理多个视频文件,但缺乏高效的工具

今天介绍的 video-subtitle-master,正是为解决这些问题而生!这款开源工具基于 whisper.cpp 和 fluent-ffmpeg,支持批量生成字幕并翻译成多种语言,操作简单,性能优化,还能:

  • ✅ 批量喂入100+视频:自动生成精准时间轴字幕
  • ✅ AI翻译12国语言:直接调用百度/火山/DeepLX翻译API
  • ✅ 苹果芯片加速:M1/M2处理速度比传统工具快3倍

接下来,这里将详细介绍它的功能和技术原理。

🚀 快速阅读

video-subtitle-master 是一款开源AI字幕生成工具,支持批量处理视频和音频文件。

  1. 核心功能:支持批量生成字幕、翻译字幕、自定义字幕格式和并发任务数量。
  2. 技术原理:基于 whisper.cpp 进行语音识别,集成多种翻译服务,提供图形用户界面和高效的后端处理。

video-subtitle-master 是什么

video-subtitle-master-preview

video-subtitle-master 是一款基于开源项目 VideoSubtitleGenerator 开发的工具,能够批量为视频或音频生成字幕,并支持将字幕翻译成其他语言。它具备图形用户界面,操作便捷,适合普通用户和开发人员使用。

video-subtitle-master 集成了 whisper.cpp 和 fluent-ffmpeg,优化了性能,支持多种翻译服务,如百度翻译、火山引擎翻译、DeepLX 等。用户还可以自定义字幕文件名、翻译内容格式和并发任务数量,满足不同场景的需求。

video-subtitle-master 的主要功能

  • 批量处理:支持批量为视频或音频生成字幕,并支持批量翻译字幕文件。
  • 字幕翻译:支持将生成的字幕或导入的字幕翻译成其他语言,集成多种翻译服务,包括百度翻译、火山引擎翻译、DeepLX、Ollama 本地模型、OpenAI 风格 API 等。
  • 优化与集成:集成 whisper.cpp,对 Apple Silicon 进行了优化,提高生成速度;集成 fluent-ffmpeg,无需单独安装 ffmpeg。
  • 自定义功能:支持自定义字幕文件名、翻译后的字幕文件内容、模型下载源和并发任务数量。

video-subtitle-master 的技术原理

  • 语音识别技术:使用 whisper.cpp 或其他语音识别引擎从音频中提取文本内容。whisper.cpp 是基于深度学习的语音识别模型,能高效地将语音转换为文字。
  • 字幕生成:基于语音识别引擎生成的文本内容,按照时间戳格式化为字幕文件(如 SRT 或 ASS 格式)。
  • 翻译服务集成:支持多种翻译服务,基于调用外部 API(如百度翻译、火山引擎翻译)或本地模型(如 Ollama)将字幕翻译成目标语言。
  • 图形用户界面(GUI):使用现代前端技术(如 Electron)开发,提供直观的用户界面,方便用户操作。
  • 后端处理:使用 Node.js 和后端技术处理文件读取、模型加载、任务调度等逻辑。

如何运行 video-subtitle-master

快速启动!

  1. 前往 release 页面根据自己的操作系统下载安装包。
  1. 安装并运行程序。
  2. 在程序中配置所需的翻译服务。
  3. 选择要处理的视频文件或字幕文件。
  4. 设置相关参数(如源语言、目标语言、模型等)。
  5. 开始处理任务。

源代码部署

1. 克隆本项目到本地

git clone https://github.com/buxuku/video-subtitle-master.git

2. 安装依赖

cd video-subtitle-master
yarn install

3. 启动项目

yarn start

手动下载和导入模型

导入步骤:

  1. 在"模型管理"页面中,点击"导入模型"按钮。
  2. 在弹出的文件选择器中,选择您下载的模型文件。
  3. 确认导入后,模型将被添加到您的已安装模型列表中。

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦

相关文章
|
13天前
|
人工智能 算法 开发者
开源VLM“华山论剑”丨AI Insight Talk多模态专场直播预告
开源VLM“华山论剑”丨AI Insight Talk多模态专场直播预告
112 10
开源VLM“华山论剑”丨AI Insight Talk多模态专场直播预告
|
22天前
|
云安全 机器学习/深度学习 人工智能
阿里云安全Black Hat技术开源大揭秘,AI安全检测的工程化实践
阿里云安全 LLMDYara框架开源核心思路,赋能云安全产品!
|
2月前
|
人工智能 自然语言处理 数据安全/隐私保护
企业AI落地开源五剑客:Open-WebUI、Dify、RAGFlow、FastGPT、n8n
在AI技术迅猛发展的今天,企业常面临数据安全、技术门槛和系统整合等难题。本文介绍了五款开源工具——Open WebUI、Dify、RAGFlow、FastGPT和n8n,它们以低成本、私有化部署和模块化扩展的优势,助力企业构建AI能力闭环,覆盖交互、生成、知识处理与流程自动化等多个环节,推动AI真正落地应用。
|
1月前
|
人工智能 语音技术 Docker
揭秘8.3k star 开源神器 VoiceCraft 用AI革新有声内容创作,只需几秒录音
VoiceCraft 是一款开源语音编辑与文本转语音(TTS)工具,仅需几秒录音即可实现语音克隆、插入、删除、替换等操作,支持零样本编辑和高自然度语音生成。适用于播客、短视频、有声书等内容创作场景,具备本地部署能力,已在 GitHub 获得 8.3k 星标。
130 0
|
2月前
|
人工智能 JavaScript 前端开发
分享开源库:AI驱动的JavaScript反编译,针对混淆和压缩的代码
这是一个智能JavaScript反混淆与代码分析工具,通过AST转换和AI深度分析,自动还原变量名、识别依赖库、生成可视化控制流图,并支持多格式导出,提升代码理解与审计效率。访问 [jsunpack.tech](https://www.jsunpack.tech/) 即可在线体验。
273 0
|
2月前
|
机器学习/深度学习 人工智能 编解码
智谱AI发布新版VLM开源模型GLM-4.1V-9B-Thinking,引入思考范式,性能提升8倍
视觉语言大模型(VLM)已经成为智能系统的关键基石。
637 0
|
15天前
|
数据采集 人工智能 定位技术
分享一个开源的MCP工具使用的AI Agent 支持常用的AI搜索/地图/金融/浏览器等工具
介绍一个开源可用的 MCP Tool Use 通用工具使用的 AI Agent (GitHub: https://github.com/AI-Agent-Hub/mcp-marketplace ,Web App https://agent.deepnlp.org/agent/mcp_tool_use,支持大模型从Open MCP Marketplace (http://deepnlp.org/store/ai-agent/mcp-server) 的1w+ 的 MCP Server的描述和 Tool Schema 里面,根据用户问题 query 和 工具 Tool描述的 相关性,选择出来可以满足
|
15天前
|
人工智能 云栖大会 Anolis
|
2月前
|
数据采集 人工智能 API
推荐一款Python开源的AI自动化工具:Browser Use
Browser Use 是一款基于 Python 的开源 AI 自动化工具,融合大型语言模型与浏览器自动化技术,支持网页导航、数据抓取、智能决策等操作,适用于测试、爬虫、信息提取等多种场景。
520 3
推荐一款Python开源的AI自动化工具:Browser Use
|
2月前
|
数据采集 人工智能 Java
阿里云正式开源 LoongSuite:打造 AI 时代的高性能低成本可观测采集套件
AI Agent技术架构的演进正在重塑软件工程实践方式。开发者可通过智能编程助手提升效率,也可依托专业框架构建智能体系统。技术生态呈现多维度发展,涵盖高代码与低代码方案,并支持Java和Python等多语言。新型开发范式如AutoGen和LangChain降低了开发门槛。LoongSuite作为可观测采集套件,助力企业高效构建AI时代可观测体系,推动标准化数据规范,提升系统稳定性与运维效率。

热门文章

最新文章