开源学习神器把2小时网课压成5分钟脑图!BiliNote:一键转录哔哩哔哩视频,生成结构化学习文档

本文涉及的产品
图像搜索,任选一个服务类型 1个月
简介: 本文介绍基于FastAPI与React构建的开源视频笔记工具BiliNote,其整合多模态AI技术实现视频内容结构化解析,支持跨平台视频源处理与本地化部署方案,提供从语音转写到智能摘要的全流程自动化能力。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦


🎥 "你的视频笔记该进化了!开源神器把2小时网课压成5分钟脑图"

大家好,我是蚝油菜花。当知识博主还在手敲视频字幕时,这个AI工具已经让学习笔记进入「全自动时代」!

你是否经历过这些崩溃场景:

  • 📺 看完教程想整理重点,却发现根本没做时间戳标记
  • 🖊️ 手抄PPT内容到手抽筋,关键图表却无法直接复用
  • 💻 想搜索视频里的某个概念,只能在进度条上来回拖动...

今天要解剖的 BiliNote ,正是破解这些痛点的「视频学习加速器」!这个由开发者社区打造的开源神器,用三大核心理念重构知识管理:

  • 全栈解析能力:从语音转写到关键帧截取,实现多模态内容提取
  • 智能结构化:自动生成带跳转链接的Markdown文档,支持深度搜索
  • 模型自由配置:兼容OpenAI/DeepSeek等多类大模型,满足定制需求

已有教育机构用它批量处理慕课视频——准备好迎接认知效率革命了吗?

🚀 快速阅读

BiliNote是基于现代Web技术栈开发的智能化视频内容处理工具。

  1. 核心功能:实现跨平台视频解析、语音转写、智能摘要与结构化文档生成
  2. 技术原理:采用FastAPI构建微服务架构,结合React实现交互界面,支持多模态AI模型集成

BiliNote 是什么

BiliNote

BiliNote 是基于微服务架构设计的智能视频处理系统,通过整合语音识别、大语言模型和计算机视觉技术,实现视频内容到结构化文档的自动化转换。该系统支持哔哩哔哩、YouTube等主流视频平台,提供从URL解析到最终文档输出的完整处理链路。

其技术架构采用前后端分离设计,后端使用FastAPI搭建高性能REST API服务,前端基于Vite+React构建交互界面。系统支持本地部署的Whisper语音识别模型,同时兼容多类云端大模型接口,在保证处理效率的同时兼顾隐私安全。

BiliNote 的主要功能

  • 跨平台解析:支持哔哩哔哩、YouTube等视频链接自动识别与内容抓取
  • 多模态处理:同步执行语音转写、关键帧截取与文字内容分析
  • 智能结构化:自动生成带章节跳转链接的Markdown文档
  • 模型可配置:支持OpenAI/DeepSeek/Qwen等多类大模型接口切换
  • 历史追溯:完整记录处理任务日志与生成版本

BiliNote 的技术原理

  • 服务架构:采用FastAPI构建异步微服务,处理峰值并发请求
  • 转写引擎:集成Fast-Whisper实现本地化语音识别
  • 内容分析:通过大模型提取视频语义结构并生成摘要
  • 渲染系统:使用React动态渲染Markdown文档与交互元素
  • 部署方案:提供Docker容器化部署配置,支持快速环境搭建

如何运行 BiliNote

快速开始

1. 克隆仓库

git clone https://github.com/JefferyHcool/BiliNote.git
cd BiliNote
mv .env.example .env

2. 启动后端(FastAPI)

cd backend
pip install -r requirements.txt
uvicorn app.main:app --reload

3. 启动前端(Vite + React)

cd BiliNote_frontend
pnpm install
pnpm dev

访问:http://localhost:5173

依赖说明

FFmpeg

本项目依赖 ffmpeg 用于音频处理与转码,必须安装:

# Mac (brew)
brew install ffmpeg

# Ubuntu / Debian
sudo apt install ffmpeg

# Windows
# 安装 ffmpeg:https://ffmpeg.org/download.html

⚠️ 若系统无法识别 ffmpeg,请将其加入系统环境变量 PATH

CUDA 加速(可选)

若你希望更快地执行音频转写任务,可使用具备 NVIDIA GPU 的机器,并启用 fast-whisper + CUDA 加速版本:

具体 fast-whisper 配置方法,请参考:fast-whisper 项目地址

使用 Docker 一键部署

确保你已安装 Docker 和 Docker Compose:

1. 克隆本项目

git clone https://github.com/JefferyHcool/BiliNote.git
cd BiliNote
mv .env.example .env

2. 启动 Docker Compose

docker compose up --build

默认端口:

前端:http://localhost:${FRONTEND_PORT}

后端:http://localhost:${BACKEND_PORT}

.env 文件中可自定义端口与环境配置。

环境变量配置

后端 .env 示例:

API_BASE_URL=http://localhost:8000
OUT_DIR=note_results
IMAGE_BASE_URL=/static/screenshots
MODEL_PROVIDER=openai
OPENAI_API_KEY=sk-xxxxxx
DEEP_SEEK_API_KEY=xxx
QWEN_API_KEY=xxx

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦

相关文章
|
5月前
|
机器学习/深度学习 人工智能 PyTorch
模型手动绑骨3天,AI花3分钟搞定!UniRig:清华开源通用骨骼自动绑定框架,助力3D动画制作
UniRig是清华大学与VAST联合研发的自动骨骼绑定框架,基于自回归模型与交叉注意力机制,支持多样化3D模型的骨骼生成与蒙皮权重预测,其创新的骨骼树标记化技术显著提升动画制作效率。
819 27
模型手动绑骨3天,AI花3分钟搞定!UniRig:清华开源通用骨骼自动绑定框架,助力3D动画制作
|
5月前
|
人工智能 编解码 算法
AI生成视频告别剪辑拼接!MAGI-1:开源自回归视频生成模型,支持一镜到底的长视频生成
MAGI-1是Sand AI开源的全球首个自回归视频生成大模型,采用创新架构实现高分辨率流畅视频生成,支持无限扩展和精细控制,在物理行为预测方面表现突出。
588 1
AI生成视频告别剪辑拼接!MAGI-1:开源自回归视频生成模型,支持一镜到底的长视频生成
|
5月前
|
人工智能 并行计算 Linux
斯坦福黑科技让笔记本GPU也能玩转AI视频生成!FramePack:压缩输入帧上下文长度!仅需6GB显存即可生成高清动画
斯坦福大学推出的FramePack技术通过压缩输入帧上下文长度,解决视频生成中的"遗忘"和"漂移"问题,仅需6GB显存即可在普通笔记本上实时生成高清视频。
1083 19
斯坦福黑科技让笔记本GPU也能玩转AI视频生成!FramePack:压缩输入帧上下文长度!仅需6GB显存即可生成高清动画
|
5月前
|
机器学习/深度学习 人工智能 算法
GPT-4.5 竟成小丑!OpenAI 推出 GPT-4.1:百万级上下文多模态语言模型,性价比远超 GPT-4o mini
OpenAI最新发布的GPT-4.1系列语言模型通过混合专家架构与上下文优化,实现百万级token处理能力,在编码任务中准确率提升21.4%,推理成本降低83%,支持多模态内容理解与低延迟响应。
226 27
GPT-4.5 竟成小丑!OpenAI 推出 GPT-4.1:百万级上下文多模态语言模型,性价比远超 GPT-4o mini
|
5月前
|
人工智能 自然语言处理 搜索推荐
AI对话像真人!交交:上海交大推出全球首个口语对话情感大模型,支持多语言与实时音色克隆
上海交通大学推出的交交是全球首个纯学术界自研的口语对话情感大模型,具备多语言交流、方言理解、角色扮演和情感互动等能力,通过创新技术实现端到端语音对话和实时音色克隆。
339 14
AI对话像真人!交交:上海交大推出全球首个口语对话情感大模型,支持多语言与实时音色克隆
|
5月前
|
人工智能 Linux iOS开发
音乐人必看!OpenUtau:开源AI歌声合成神器,快速打造专业级虚拟歌手,中文日文无缝切换
OpenUtau是一款开源的歌声合成工具,兼容UTAU音源库和重采样器,支持多语言界面及预渲染功能,让音乐创作更加高效便捷。
1170 15
音乐人必看!OpenUtau:开源AI歌声合成神器,快速打造专业级虚拟歌手,中文日文无缝切换
|
5月前
|
人工智能 开发框架 决策智能
谷歌开源多智能体开发框架 Agent Development Kit:百行代码构建复杂AI代理,覆盖整个开发周期!
谷歌开源的Agent Development Kit(ADK)是首个代码优先的Python工具包,通过多智能体架构和灵活编排系统,支持开发者在百行代码内构建复杂AI代理,提供预置工具库与动态工作流定义能力。
798 3
谷歌开源多智能体开发框架 Agent Development Kit:百行代码构建复杂AI代理,覆盖整个开发周期!
|
5月前
|
人工智能 编解码
导演失业预警!Seaweed-7B:字节7B参数模型让剧本自动变电影!20秒长镜头丝滑生成
Seaweed-7B是字节跳动推出的70亿参数视频生成模型,支持从文本、图像或音频生成高质量视频内容,具备长镜头生成、实时渲染等先进特性,通过优化架构显著降低计算成本。
253 10
导演失业预警!Seaweed-7B:字节7B参数模型让剧本自动变电影!20秒长镜头丝滑生成
|
5月前
|
人工智能 自然语言处理 数据可视化
Mini DALL·E 3:设计师福音!开源AI绘画神器:对话式修图+智能问答,草图秒变商业大作
Mini DALL·E 3是由北京理工大学联合多所高校开发的交互式文生图框架,通过多轮对话实现高质量图像生成与编辑,结合LLM和T2I模型技术,无需额外训练即可生成符合描述的图像。
393 47
Mini DALL·E 3:设计师福音!开源AI绘画神器:对话式修图+智能问答,草图秒变商业大作
|
6月前
|
Serverless 人机交互 UED
鸿蒙特效教程01-哔哩哔哩点赞与一键三连效果实现教程
本教程面向HarmonyOS初学者,详细讲解如何实现类似哔哩哔哩APP中的点赞与一键三连效果。内容涵盖基础布局、状态切换、点击动画、长按手势识别、旋转缩放动画以及粒子爆炸效果的实现。通过ArkUI布局系统、状态管理、手势处理和动画技术,逐步完成从简单到复杂的交互设计。最终效果包括图标变色、缩放、旋转及粒子动画,为用户提供流畅生动的体验。适合希望掌握HarmonyOS开发技巧的开发者学习参考。
292 68
鸿蒙特效教程01-哔哩哔哩点赞与一键三连效果实现教程

热门文章

最新文章