还在花钱转语音?10,000+ star 开源「ebook2audiobook」白嫖1107种语言!免费文字秒变多语言音频!

简介: 开源工具「ebook2audiobook」支持1107+语言,可将电子书一键转为有声书,适配EPUB、PDF等多种格式,功能强大且免费,助力听书、学习与内容创作。

嗨,我是小华同学,专注解锁高效工作与前沿AI工具!每日精选开源技术、实战技巧,助你省时50%、领先他人一步。👉免费订阅,与10万+技术人共享升级秘籍!

image.png

ebook2audiobook 是一款由 Drew Thomasson 主导、13 k+ Stars(约 9683 ⭐)的开源利器,可实现电子书 (EPUB、PDF、MOBI、TXT…) → 有声书 (.m4b/.mp3) 的无缝转换,支持章节保留、元数据写入、1107+ 语言、TTS 引擎切换、语音克隆等高阶功能

痛点场景

  • 阅读疲劳:长时间盯屏眼睛痛,换成听书更轻松。
  • 通勤学习:早晚地铁公交,想把书“听”下去。
  • 语言学习:多语言版本支持,让听力训练更便捷。
  • 个人品牌:内容创作者可用自定义语音输出品牌专属“播报腔”。

核心功能

功能 描述 优势
章节拆分 自动识别 ebook 章节并生成对应音频片段 导航清晰,支持 m4b 弹跳
多 TTS 引擎支持 XTTSv2、Bark、Fairseq、Piper、Tacotron2、YourTTS 等 可根据语言及场景选最优模型
1107+ 语言 包括中文、阿拉伯语、日语、韩语… 语言覆盖全面
可选语音克隆 输入个人音频即可克隆声音 个性化定制,品牌调性更统一
轻量资源占用 最低 4 GB 内存即可运行 低门槛部署
Web GUI 支持 Gradio 基础的可视化操作界面 简单易用,零命令迷茫
Docker 容器部署 支持容器化、本地/云端快速部署 一键运行,无需环境配置
元数据 & 格式输出 支持 .m4b、.mp3,写入封面、章节、作者等信息 专业听书体验
Colab / HF Spaces 等 支持免费资源运行与演示 云端体验快人一步

技术架构

image.png

  • 预处理:Calibre 抽取文本并自动分章;
  • 合成层:用户选择 TTS 引擎,可选个人语音;
  • 生成阶段:Coqui‑TTS 等生成音频,FFmpeg 合并并写入 metadata;
  • 工程优势:4 GB 起即可部署,支持 CPU/GPU,以及本地或容器化部署  。

界面展示

image.png

  1. 主界面上传区:一键上传 ebook/声音文件,选择模型、语言与音量等参数;
  2. 参数调节区域:Temperature、Length Penalty、Speed、Top‑k 等滑条可视化调整;
  3. 进度条 & 播放区:实时显示合成进度,可试听或下载音频;
  4. 语言下拉菜单:1107+ 语言任你选,满足多语场景需求。

使用示例

一、Web GUI 使用方法

git clone https://github.com/DrewThomasson/ebook2audiobook
cd ebook2audiobook
pip install -r requirements.txt
python app.py
# 浏览器打开提示的地址,上传 ebook,选择语言 + 模型,点击 “Convert”

二、命令行(无界面运行)

python app.py \
 --headless \
 --ebook path/to/book.epub \
 --language zh-cn \
 --tts_engine XTTSv2 \
 --output_format m4b

三、Docker 部署

docker run -it --rm -p 7861:7861 drewthomasson/ebook2audiobook:latest
# 打开浏览器访问 http://localhost:7861

四、语音克隆实战

  • Step1:录一段你自己的语音:myvoice.wav
  • Step2:命令运行:

python app.py \
 --ebook mybook.pdf \
 --voice myvoice.wav \
 --language en \
 --tts_engine YOURTTS

生成个性化听书,品牌调性突出。

应用场景

  • 上班族/学生:通勤时听电子书,缓解眼疲劳;
  • 语言学习者:反复听目标语言版本,提高语感;
  • 内容创作者:制作有声版文章,用自定义声音输出;
  • 视障人士:将生活必读材料转为听书,增进信息获取;
  • 知识付费补充:文字教学课稿自动朗读,省时省力。

同类项目

项目 语言数 GUI 支持 语音克隆 依赖资源 优势
ebook2audiobook 1107+ ✅ Gradio/Docker Calibre + TTS + FFmpeg 功能最齐全、支持语音克隆、轻量资源
ebook2audiobookSTYLETTS2 ~30+ StyleTTS2 架构更聚焦,语音更自然
ebook2audiobook‑piper‑tts 多语支持 ✅ Docker Piper + Calibre 安装简单,偏基础
其他如 storybook TTS 工具 少量语言 各不相同 门槛低,但功能逊色

总结

ebook2audiobook 是目前开源界最强、语言支持最全、功能最丰富的电子书 to 有声书转换工具。低门槛部署、高度可定制、适合多场景使用。无论是自用听书,还是内容创作转音频,它都能解放你的双眼、释放你的时间。

项目地址

https://github.com/DrewThomasson/ebook2audiobook

相关文章
|
3月前
|
Web App开发 前端开发 关系型数据库
GitHub 2.8k star 开源既封神,“Liquid‑Glass‑React”,让你前端界面瞬间拥有苹果级液态玻璃效果!
Liquid-Glass-React 是一款开源前端组件,旨在将 Apple iOS 26 的“液态玻璃”视觉效果引入 React 应用。凭借逼真折射、多种反射模式、响应式交互及高度可配置性,它已获得 2.8k stars,成为提升 UI 质感的热门工具。
335 0
|
Arthas 监控 Java
Java 诊断利器 Arthas使用
Java 诊断利器 Arthas使用
2238 0
uniapp 全局数据(globalData)的设置,获取,更改
uniapp 全局数据(globalData)的设置,获取,更改
3316 0
|
11月前
|
人工智能 Ubuntu 语音技术
ebook2audiobookXTTS:开源电子书转有声书 AI 工具,支持 16 种语言
ebook2audiobookXTTS 是一款开源的 AI 工具,能够将电子书转换为有声书,支持多种电子书格式和 16 种语言。该工具利用 Coqui XTTS 技术实现高质量的文本到语音转换,并提供命令行、Web 界面和 Docker 容器等多种使用方式。
1238 3
ebook2audiobookXTTS:开源电子书转有声书 AI 工具,支持 16 种语言
|
2月前
|
缓存 自然语言处理 JavaScript
Github 3k+ star,中后台管理系统框架,支持多款 UI 组件库,兼容PC、移动端!比商业系统还专业!!
Fantastic-admin/basic 是基于 Vue3 与 TypeScript 的中后台管理系统框架,支持多款 UI 组件库,如 Element Plus、Arco Design、Naive-UI 等。它提供完整的项目结构、权限控制、国际化、多级缓存标签页等功能,兼容 PC、平板及移动端,适合快速搭建企业级后台应用。框架具备高度可定制性,拥有 3k+ GitHub Star,生态完善,适合中小团队和个人开发者提升效率。
131 2
|
2月前
|
数据采集 人工智能 数据可视化
GitHub 15.8k star 狂涨 DeerFlow,AI + 搜索 + 报告输出一次搞定!
DeerFlow 是字节跳动开源的深度研究框架,集成语言模型、搜索爬虫与代码执行工具,支持自动化完成复杂研究任务并生成多模态报告。具备多智能体协作、强搜索能力、Python 数据分析及可视化、报告自动生成等功能,适用于学术研究、内容创作与企业分析,部署灵活,社区活跃。
220 2
|
2月前
|
机器学习/深度学习 数据采集 人工智能
阿里开源即封神,一上线就斩获4000+ star背后的真相,WebAgent多步骤智能网搜神器,颠覆你对AI的信息检索印象!
WebAgent 是阿里巴巴开源的多步骤智能网搜神器,包含 WebWalker、WebDancer、WebSailor 等模块,支持复杂推理与长上下文信息检索,GitHub 已获 4.7k star,颠覆传统 AI 搜索方式。
325 1
|
2月前
|
人工智能 编解码 JSON
不看后悔!GitHub 开源 MultiTalk .8k star 强大的人语音+图像绑定项目
MultiTalk 是 GitHub 上的开源项目,具备音频驱动、多人对话视频生成功能。支持多路音频与图像绑定,实现高同步唇动与角色互动,适用于教学、虚拟人及短视频创作,已获 8k 星标。
225 0
|
2月前
|
人工智能 自然语言处理 JavaScript
Github又一AI黑科技项目,打造全栈架构,只需一个统一框架?
Motia 是一款现代化后端框架,融合 API 接口、后台任务、事件系统与 AI Agent,支持 JavaScript、TypeScript、Python 多语言协同开发。它提供可视化 Workbench、自动观测追踪、零配置部署等功能,帮助开发者高效构建事件驱动的工作流,显著降低部署与运维成本,提升 AI 项目落地效率。
266 0
|
2月前
|
人工智能 自然语言处理 前端开发
牛x,这也许是Coze(字节)平替,AIFlowy:企业级AI应用开发平台
AIFlowy 是一个基于 Java 的企业级开源 AI 应用开发平台,专为中国 toB 场景打造。它提供可视化 AI 工作流编排、大模型配置与市场、RAG 知识库、Bot 应用、素材中心及系统管理模块,帮助企业快速构建和部署 AI 应用。平台支持多样模型接入、复杂流程组装、素材生成及系统治理,适用于智能客服、知识运营、营销素材生产等场景。技术栈成熟,本土化支持良好,具备完整的开发、部署和管理能力,是企业级 AI 落地的理想选择。
234 0