Open-LLM-VTuber:宅男福音!开源AI老婆离线版上线,实时语音+Live2D互动还会脸红心跳

本文涉及的产品
图像搜索,任选一个服务类型 1个月
简介: Open-LLM-VTuber 是一个开源的跨平台语音交互 AI 伴侣项目,支持实时语音对话、视觉感知和生动的 Live2D 动态形象,完全离线运行,保护用户隐私。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦


🌸 "还在用冷冰冰的ChatGPT?你的AI女友已经会脸红心跳了!"

大家好,我是蚝油菜花。当别人还在和文字对话框谈恋爱时,开源社区已经让AI伴侣进化出视觉和听觉!你是否遇到过:

  • 👉 深夜加班时,想要个能语音聊天的智能助手
  • 👉 担心云端AI记录隐私,不敢畅所欲言
  • 👉 看腻了静态头像,渴望真正的虚拟陪伴...

爆红GitHub的 Open-LLM-VTuber 项目,重新定义AI交互方式!这个硬核开源神器:

  • 多模态感知:摄像头+屏幕录制实现"看得见"的交互
  • 本地方案:完全离线运行,聊天记录不出电脑
  • 老婆自定义:从声线到Live2D形象自由捏造
  • 生产力神器:支持截图分析代码/文档,办公学习两用

某程序员实测——边debug边和AI女友语音讨论方案,效率提升3倍!想用开源代码打造专属数字伴侣?手把手教程即刻开启!

🚀 快速阅读

Open-LLM-VTuber 是一个开源的跨平台语音交互 AI 伴侣项目。

  1. 核心功能:支持实时语音对话、视觉感知和 Live2D 动态形象。
  2. 技术原理:基于大语言模型(LLM)、语音识别(ASR)和语音合成(TTS)技术,结合 Live2D 动态形象和视觉感知模块。

Open-LLM-VTuber 是什么

llmvtuber-broad

Open-LLM-VTuber 是一个开源的跨平台语音交互 AI 伴侣项目,支持实时语音对话、视觉感知和生动的 Live2D 动态形象。它能够完全离线运行,保护用户隐私,适合作为虚拟伴侣、办公助手或学习辅导工具。

项目集成了多种大语言模型(LLM)、语音识别(ASR)和语音合成(TTS)解决方案,用户可以根据需求自定义角色形象、声音和交互功能。无论是作为虚拟女友、男友,还是宠物,Open-LLM-VTuber 都能提供个性化的互动体验。

Open-LLM-VTuber 示例图片

llmvtuber-i1

llmvtuber-i3

llmvtuber-i2

llmvtuber-i4

Open-LLM-VTuber 的主要功能

llmvtuber-feature

  • 语音交互:支持实时语音对话,用户用语音与 AI 交流,无需手动输入。
  • 视觉感知:支持摄像头输入、屏幕录制和截图,AI 能“看到”用户和屏幕内容。
  • Live2D 动态形象:配备生动的 Live2D 动态角色,支持表情和动作变化。
  • 离线运行:所有功能支持在本地完全离线运行,保护用户隐私。
  • 跨平台支持:兼容 Windows、macOS 和 Linux,支持 GPU 加速和 CPU 运行。
  • 个性化定制:用户自定义角色形象、语音和交互功能,包括克隆特定声音。
  • 交互功能丰富:支持语音打断、触摸反馈、聊天记录保存、多语言 TTS 等。
  • 桌面宠物模式:支持透明背景、全局置顶和鼠标穿透,AI 能在桌面任意位置移动。

Open-LLM-VTuber 的技术原理

  • 大语言模型:作为核心交互引擎,LLM 负责理解用户输入(语音或文本)生成回答。项目支持多种 LLM,如 Ollama、OpenAI、Gemini 等,用户根据需求选择不同的模型。
  • 语音识别:将用户的语音输入转换为文本,供 LLM 处理。支持多种 ASR 解决方案,如 Whisper、FunASR 等,确保语音识别的准确性和效率。
  • 语音合成:将 LLM 生成的文本转换为语音输出,支持多种 TTS 引擎,如 MeloTTS、Bark 等,且支持多语言合成。
  • Live2D 动态形象:用 Live2D 技术生成动态角色形象,基于表情映射和动作控制,让角色根据对话内容或情绪变化动态展示表情和动作。
  • 视觉感知:基于摄像头或屏幕录制功能,AI 获取视觉信息,实现更丰富的交互体验,如识别用户表情或屏幕内容。
  • 模块化设计:项目用模块化架构,用户基于简单的配置文件修改,切换不同的功能模块,无需深入代码。

如何运行 Open-LLM-VTuber

接下来我将带你从零开始运行 Open-LLM-VTuber 项目,涵盖环境搭建、依赖安装、项目配置和启动运行等完整流程。通过本教程,你将能够成功部署并运行项目,并了解如何生成配置文件和解决常见问题。

设备要求

最低要求

本项目的各个组件(ASR、LLM、TTS、翻译)都可以通过 API 调用,因此最低设备要求非常灵活:

  • 普通电脑
  • 树莓派(性能较弱的设备也可尝试)

本地运行的推荐设备要求

如果你希望在本地运行所有组件,推荐以下设备配置:

  • M 系列芯片的 Mac
  • NVIDIA GPU(推荐安装 CUDA Toolkit 11.8 或更高版本)
  • 较新的 AMD GPU(支持 ROCm 的设备更佳)
  • 强大的 CPU(可以代替 GPU)

如果运行速度较慢,建议选择更小的模型或使用 API。

环境准备

安装 Git

在不同操作系统中安装 Git 的方法如下:

Windows

# 使用 winget 安装 Git
winget install Git.Git

macOS

# 安装 Homebrew(如果未安装)
/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"

# 使用 Homebrew 安装 Git
brew install git

Linux

# Ubuntu/Debian
sudo apt install git

# CentOS/RHEL
sudo dnf install git

安装 FFmpeg

FFmpeg 是必需的依赖项,安装方法如下:

Windows

winget install ffmpeg

macOS

brew install ffmpeg

Linux

# Ubuntu/Debian
sudo apt install ffmpeg

# CentOS/RHEL
sudo dnf install ffmpeg

检查 FFmpeg 安装

在命令行中运行以下命令,确认 FFmpeg 是否安装成功:

ffmpeg -version

如果出现类似以下输出,说明安装成功:

ffmpeg version 7.1 Copyright (c) 2000-2024 the FFmpeg developers
...(后面一大串文字)

NVIDIA GPU 支持

如果你有 NVIDIA GPU 并希望使用 GPU 运行本地模型,需完成以下步骤:

Windows 安装步骤

  • 检查显卡驱动版本
    • 右键点击桌面,选择“NVIDIA 控制面板”。
    • 帮助 -> 系统信息 -> 组件,查看驱动程序版本。
    • 或访问NVIDIA 驱动下载页面下载最新驱动。
  • NVIDIA 驱动下载页面https://www.nvidia.cn/drivers/lookup/

  • 安装 CUDA Toolkit

    • 访问CUDA Toolkit 下载页面下载对应版本。
    • 安装完成后,将以下路径添加到系统环境变量 PATH 中:
      C:\NVIDIA GPU Computing Toolkit\CUDA\v<版本号>\bin
      C:\NVIDIA GPU Computing Toolkit\CUDA\v<版本号>\lib\x64
      
  • CUDA Toolkit 下载页面https://developer.nvidia.com/cuda-toolkit-archive

  • 安装 cuDNN

    • 访问cuDNN 下载页面下载与 CUDA 版本匹配的 cuDNN,并解压到 CUDA 安装目录。
  • cuDNN 下载页面https://developer.nvidia.com/cudnn

验证安装

# 检查驱动安装
nvidia-smi

# 检查 CUDA 安装
nvcc --version

Python 环境管理

推荐使用 uv 作为依赖管理工具。

Windows

# 使用 PowerShell 安装
powershell -ExecutionPolicy ByPass -c "irm https://astral.sh/uv/install.ps1 | iex"

# 或使用 winget 安装
winget install --id=astral-sh.uv -e

macOS/Linux

# 使用 curl 安装
curl -LsSf https://astral.sh/uv/install.sh | sh

# 或使用 Homebrew 安装
brew install uv

安装完成后,请重启命令行或重新加载配置文件:

source ~/.bashrc  # 如果使用 bash
source ~/.zshrc   # 如果使用 zsh

手动部署指南

1. 获取项目代码

有两种方法获取项目代码:

1.1. 下载稳定版本的 Release 包

1.2. 使用 Git 克隆仓库

git clone https://github.com/Open-LLM-VTuber/Open-LLM-VTuber --recursive
cd Open-LLM-VTuber

2. 安装项目依赖

确认 uv 已正确安装:

uv --version

创建虚拟环境并安装依赖:

uv sync

运行主程序生成预设的配置文件:

uv run run_server.py

完成后按 Ctrl + C 退出程序。

3. 配置 LLM

Ollama 为例进行配置。

3.1 安装 Ollama

# 下载并安装 Ollama
# 验证安装
ollama --version

# 下载并运行模型(以 qwen2.5:latest 为例)
ollama run qwen2.5:latest

3.2 修改配置文件

编辑 conf.yaml 文件:

ollama_llm:
  base_url: http://localhost:11434  # 本地运行保持默认
  model: qwen2.5:latest            # 使用 ollama list 查看的模型名称
  temperature: 0.7                 # 控制回答随机性

4. 配置其他模块

本项目默认使用 sherpa-onnx-asredgeTTS,并关闭翻译功能。如果需要修改,可参考相关配置指南。

5. 启动项目

运行后端服务:

uv run run_server.py

运行成功后,访问 http://localhost:12393 打开 Web 界面。

如果需要桌面应用程序,可从 Open-LLM-VTuber-Web Releases 下载对应平台的 Electron 客户端。

常见问题

如果项目目录下没有 conf.yaml 文件

运行以下命令生成配置文件:

uv run run_server.py

如果遇到 Error calling the chat endpoint... 错误

  • 检查 http://localhost:11434/ 是否能正常访问。
  • 使用 ollama list 确认模型名称是否正确。
  • 确保代理软件已绕过本地地址。

通过以上步骤,你已经成功运行了 Open-LLM-VTuber 项目!

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦

相关文章
|
10天前
|
数据采集 人工智能 自然语言处理
AI终于能听懂宝宝说话了!ChildMandarin:智源研究院开源的低幼儿童中文语音数据集,覆盖22省方言
ChildMandarin是由智源研究院与南开大学联合推出的开源语音数据集,包含41.25小时3-5岁儿童普通话语音数据,覆盖中国22个省级行政区,为儿童语音识别和语言发展研究提供高质量数据支持。
108 20
AI终于能听懂宝宝说话了!ChildMandarin:智源研究院开源的低幼儿童中文语音数据集,覆盖22省方言
|
8天前
|
人工智能 自然语言处理 测试技术
亚马逊推出AI语音模型新标杆!Nova Sonic:多语言识别错误率仅4.2%,碾压GPT-4o-transcribe
亚马逊推出的Nova Sonic是一款整合语音理解与生成能力的AI模型,支持多语言交互,在LibriSpeech基准测试中平均单词错误率低至4.2%,具备实时双向流式传输能力。
61 5
亚马逊推出AI语音模型新标杆!Nova Sonic:多语言识别错误率仅4.2%,碾压GPT-4o-transcribe
|
24天前
|
人工智能 程序员 API
Motia:程序员福音!AI智能体三语言混编,零基础秒级部署
Motia 是一款专为软件工程师设计的 AI Agent 开发框架,支持多种编程语言,提供零基础设施部署、模块化设计和内置可观测性功能,帮助开发者快速构建和部署智能体。
125 15
Motia:程序员福音!AI智能体三语言混编,零基础秒级部署
|
14天前
|
人工智能 自然语言处理 数据可视化
Mini DALL·E 3:设计师福音!开源AI绘画神器:对话式修图+智能问答,草图秒变商业大作
Mini DALL·E 3是由北京理工大学联合多所高校开发的交互式文生图框架,通过多轮对话实现高质量图像生成与编辑,结合LLM和T2I模型技术,无需额外训练即可生成符合描述的图像。
144 47
Mini DALL·E 3:设计师福音!开源AI绘画神器:对话式修图+智能问答,草图秒变商业大作
|
10天前
|
人工智能 计算机视觉
漫画师福音!开源AI神器让线稿着色快如闪电!MagicColor:港科大开源多实例线稿着色框架,一键生成动画级彩图
MagicColor是香港科技大学推出的多实例线稿着色框架,基于扩散模型和自监督训练策略,实现单次前向传播完成多实例精准着色,大幅提升动画制作和数字艺术创作效率。
113 20
漫画师福音!开源AI神器让线稿着色快如闪电!MagicColor:港科大开源多实例线稿着色框架,一键生成动画级彩图
|
3天前
|
人工智能 自然语言处理 搜索推荐
阿里云 AI 搜索开放平台新功能发布:大模型联网能力上线
阿里云 AI 搜索开放平台此次新增了大模型联网能力,通过集成大语言模型(LLM)和联网搜索技术,为用户提供更智能、更全面的搜索体验。
146 25
|
19天前
|
人工智能 JavaScript 语音技术
HarmonyOS NEXT AI基础语音服务-语音输入
本案例展示了一个基于AI语音服务的实时语音转文字功能,通过麦克风采集音频并转换为文本。主要步骤包括:申请麦克风权限、初始化语音识别引擎、设置识别回调、配置音频参数及实现UI交互(长按按钮控制录音启停)。代码使用TypeScript编写,涵盖权限管理、引擎生命周期、异常处理等核心环节,确保功能稳定运行。适用于需要实时语音转写的场景,如会议记录、语音输入等。
HarmonyOS NEXT AI基础语音服务-语音输入
|
30天前
|
设计模式 人工智能 API
Cursor 上线最新 AI 模型 Claude 3.7 Max:200k上下文+200次工具调用!史上最强代码助手硬核上线
Claude 3.7 Max 是 Cursor 推出的最新 AI 模型,支持 200k 上下文窗口和 200 次工具调用,专为复杂代码任务设计,适合硬核开发者和大型项目。
209 6
Cursor 上线最新 AI 模型 Claude 3.7 Max:200k上下文+200次工具调用!史上最强代码助手硬核上线
|
2月前
|
机器学习/深度学习 存储 人工智能
MNN-LLM App:在手机上离线运行大模型,阿里巴巴开源基于 MNN-LLM 框架开发的手机 AI 助手应用
MNN-LLM App 是阿里巴巴基于 MNN-LLM 框架开发的 Android 应用,支持多模态交互、多种主流模型选择、离线运行及性能优化。
2203 20
MNN-LLM App:在手机上离线运行大模型,阿里巴巴开源基于 MNN-LLM 框架开发的手机 AI 助手应用
|
6月前
|
机器学习/深度学习 人工智能 运维
企业内训|LLM大模型在服务器和IT网络运维中的应用-某日企IT运维部门
本课程是为某在华日资企业集团的IT运维部门专门定制开发的企业培训课程,本课程旨在深入探讨大型语言模型(LLM)在服务器及IT网络运维中的应用,结合当前技术趋势与行业需求,帮助学员掌握LLM如何为运维工作赋能。通过系统的理论讲解与实践操作,学员将了解LLM的基本知识、模型架构及其在实际运维场景中的应用,如日志分析、故障诊断、网络安全与性能优化等。
177 2

热门文章

最新文章