开源学习神器把2小时网课压成5分钟脑图!BiliNote:一键转录哔哩哔哩视频,生成结构化学习文档

简介: 本文介绍基于FastAPI与React构建的开源视频笔记工具BiliNote,其整合多模态AI技术实现视频内容结构化解析,支持跨平台视频源处理与本地化部署方案,提供从语音转写到智能摘要的全流程自动化能力。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦


🎥 "你的视频笔记该进化了!开源神器把2小时网课压成5分钟脑图"

大家好,我是蚝油菜花。当知识博主还在手敲视频字幕时,这个AI工具已经让学习笔记进入「全自动时代」!

你是否经历过这些崩溃场景:

  • 📺 看完教程想整理重点,却发现根本没做时间戳标记
  • 🖊️ 手抄PPT内容到手抽筋,关键图表却无法直接复用
  • 💻 想搜索视频里的某个概念,只能在进度条上来回拖动...

今天要解剖的 BiliNote ,正是破解这些痛点的「视频学习加速器」!这个由开发者社区打造的开源神器,用三大核心理念重构知识管理:

  • 全栈解析能力:从语音转写到关键帧截取,实现多模态内容提取
  • 智能结构化:自动生成带跳转链接的Markdown文档,支持深度搜索
  • 模型自由配置:兼容OpenAI/DeepSeek等多类大模型,满足定制需求

已有教育机构用它批量处理慕课视频——准备好迎接认知效率革命了吗?

🚀 快速阅读

BiliNote是基于现代Web技术栈开发的智能化视频内容处理工具。

  1. 核心功能:实现跨平台视频解析、语音转写、智能摘要与结构化文档生成
  2. 技术原理:采用FastAPI构建微服务架构,结合React实现交互界面,支持多模态AI模型集成

BiliNote 是什么

BiliNote

BiliNote 是基于微服务架构设计的智能视频处理系统,通过整合语音识别、大语言模型和计算机视觉技术,实现视频内容到结构化文档的自动化转换。该系统支持哔哩哔哩、YouTube等主流视频平台,提供从URL解析到最终文档输出的完整处理链路。

其技术架构采用前后端分离设计,后端使用FastAPI搭建高性能REST API服务,前端基于Vite+React构建交互界面。系统支持本地部署的Whisper语音识别模型,同时兼容多类云端大模型接口,在保证处理效率的同时兼顾隐私安全。

BiliNote 的主要功能

  • 跨平台解析:支持哔哩哔哩、YouTube等视频链接自动识别与内容抓取
  • 多模态处理:同步执行语音转写、关键帧截取与文字内容分析
  • 智能结构化:自动生成带章节跳转链接的Markdown文档
  • 模型可配置:支持OpenAI/DeepSeek/Qwen等多类大模型接口切换
  • 历史追溯:完整记录处理任务日志与生成版本

BiliNote 的技术原理

  • 服务架构:采用FastAPI构建异步微服务,处理峰值并发请求
  • 转写引擎:集成Fast-Whisper实现本地化语音识别
  • 内容分析:通过大模型提取视频语义结构并生成摘要
  • 渲染系统:使用React动态渲染Markdown文档与交互元素
  • 部署方案:提供Docker容器化部署配置,支持快速环境搭建

如何运行 BiliNote

快速开始

1. 克隆仓库

git clone https://github.com/JefferyHcool/BiliNote.git
cd BiliNote
mv .env.example .env

2. 启动后端(FastAPI)

cd backend
pip install -r requirements.txt
uvicorn app.main:app --reload

3. 启动前端(Vite + React)

cd BiliNote_frontend
pnpm install
pnpm dev

访问:http://localhost:5173

依赖说明

FFmpeg

本项目依赖 ffmpeg 用于音频处理与转码,必须安装:

# Mac (brew)
brew install ffmpeg

# Ubuntu / Debian
sudo apt install ffmpeg

# Windows
# 安装 ffmpeg:https://ffmpeg.org/download.html

⚠️ 若系统无法识别 ffmpeg,请将其加入系统环境变量 PATH

CUDA 加速(可选)

若你希望更快地执行音频转写任务,可使用具备 NVIDIA GPU 的机器,并启用 fast-whisper + CUDA 加速版本:

具体 fast-whisper 配置方法,请参考:fast-whisper 项目地址

使用 Docker 一键部署

确保你已安装 Docker 和 Docker Compose:

1. 克隆本项目

git clone https://github.com/JefferyHcool/BiliNote.git
cd BiliNote
mv .env.example .env

2. 启动 Docker Compose

docker compose up --build

默认端口:

前端:http://localhost:${FRONTEND_PORT}

后端:http://localhost:${BACKEND_PORT}

.env 文件中可自定义端口与环境配置。

环境变量配置

后端 .env 示例:

API_BASE_URL=http://localhost:8000
OUT_DIR=note_results
IMAGE_BASE_URL=/static/screenshots
MODEL_PROVIDER=openai
OPENAI_API_KEY=sk-xxxxxx
DEEP_SEEK_API_KEY=xxx
QWEN_API_KEY=xxx

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦

相关文章
|
自然语言处理 算法 数据处理
持续进化,快速转录,Faster-Whisper对视频进行双语字幕转录实践(Python3.10)
Faster-Whisper是Whisper开源后的第三方进化版本,它对原始的 Whisper 模型结构进行了改进和优化。这包括减少模型的层数、减少参数量、简化模型结构等,从而减少了计算量和内存消耗,提高了推理速度,与此同时,Faster-Whisper也改进了推理算法、优化计算过程、减少冗余计算等,用以提高模型的运行效率。 本次我们利用Faster-Whisper对日语视频进行双语(日语/国语)转录实践,看看效率如何。
持续进化,快速转录,Faster-Whisper对视频进行双语字幕转录实践(Python3.10)
|
人工智能 自然语言处理 搜索推荐
AI对话像真人!交交:上海交大推出全球首个口语对话情感大模型,支持多语言与实时音色克隆
上海交通大学推出的交交是全球首个纯学术界自研的口语对话情感大模型,具备多语言交流、方言理解、角色扮演和情感互动等能力,通过创新技术实现端到端语音对话和实时音色克隆。
1113 14
AI对话像真人!交交:上海交大推出全球首个口语对话情感大模型,支持多语言与实时音色克隆
|
人工智能 Linux iOS开发
音乐人必看!OpenUtau:开源AI歌声合成神器,快速打造专业级虚拟歌手,中文日文无缝切换
OpenUtau是一款开源的歌声合成工具,兼容UTAU音源库和重采样器,支持多语言界面及预渲染功能,让音乐创作更加高效便捷。
3969 15
音乐人必看!OpenUtau:开源AI歌声合成神器,快速打造专业级虚拟歌手,中文日文无缝切换
|
人工智能 编解码 算法
AI生成视频告别剪辑拼接!MAGI-1:开源自回归视频生成模型,支持一镜到底的长视频生成
MAGI-1是Sand AI开源的全球首个自回归视频生成大模型,采用创新架构实现高分辨率流畅视频生成,支持无限扩展和精细控制,在物理行为预测方面表现突出。
1396 1
AI生成视频告别剪辑拼接!MAGI-1:开源自回归视频生成模型,支持一镜到底的长视频生成
|
人工智能 编解码 物联网
设计师集体破防!UNO:字节跳动创新AI图像生成框架,多个参考主体同框生成,位置/材质/光影完美对齐
UNO是字节跳动开发的AI图像生成框架,通过渐进式跨模态对齐和通用旋转位置嵌入技术,解决了多主体场景下的生成一致性问题。该框架支持单主体特征保持与多主体组合生成,在虚拟试穿、产品设计等领域展现强大泛化能力。
859 4
设计师集体破防!UNO:字节跳动创新AI图像生成框架,多个参考主体同框生成,位置/材质/光影完美对齐
|
机器学习/深度学习 人工智能 物联网
开源8B参数全能扩散模型Flex.2-preview:把线稿变商稿,还能边画边改!
Flex.2-preview是Ostris开源的80亿参数文本到图像扩散模型,支持512token长文本输入和多类型控制引导,内置修复功能并兼容主流AI绘画工具链。
707 3
开源8B参数全能扩散模型Flex.2-preview:把线稿变商稿,还能边画边改!
|
人工智能 自然语言处理 运维
让AI读懂K线图!ChatTS-14B:字节开源的时间序列理解和推理大模型,自然语言提问秒解趋势密码!
ChatTS-14B是字节跳动开源的时间序列专用大模型,基于Qwen2.5-14B微调优化,通过合成数据对齐技术显著提升分析能力,支持自然语言交互完成预测推理等复杂任务。
2952 1
让AI读懂K线图!ChatTS-14B:字节开源的时间序列理解和推理大模型,自然语言提问秒解趋势密码!
|
5月前
|
人工智能 自然语言处理 安全
性价比高的智能客服系统推荐(2025年12月更新)
在数字化时代,智能客服已成为提升客户体验的核心。本文对比瓴羊Quick Service、合力亿捷云客服、Intercom、Freshdesk、Zendesk五大主流产品,从功能、AI能力、部署模式、行业适配等维度深入分析,结合企业规模与业务需求,提供科学选型建议,助力企业实现服务智能化升级,降本增效。
|
机器学习/深度学习 人工智能 搜索推荐
快速切换多种画风!FlexIP:腾讯开源双适配器图像生成框架,精准平衡身份保持与个性化编辑
本文解析腾讯最新开源的FlexIP图像框架,其通过双适配器架构与动态门控机制实现身份保持与个性化编辑的精准平衡,在CLIP-I指标上取得0.873的高分验证了技术突破。
332 9
快速切换多种画风!FlexIP:腾讯开源双适配器图像生成框架,精准平衡身份保持与个性化编辑
|
机器学习/深度学习 负载均衡 数据可视化
性能比肩最强开源,QwQ-32B一键部署,百万Token免费送!
本文介绍如何通过百炼平台调用QwQ-32B开源模型。百炼平台提供的标准化 API 接口,免去了自行构建模型服务基础设施的麻烦,并支持负载均衡及自动扩缩容,确保了 API 调用的高稳定性。此外,结合使用 Chatbox 可视化界面客户端,用户无需进行命令行操作,即可通过直观的图形界面轻松完成 QwQ 模型的配置与使用。

热门文章

最新文章