手把手带你搭建一个语音对话机器人,5分钟定制个人AI小助手(新手入门篇)

简介: 本文介绍了如何从零开始搭建一个语音对话机器人,涵盖自动语音识别(ASR)、自然语言处理(NLP)和文本到语音合成(TTS)三大核心模块。通过使用开源工具如FunASR、LLaMA3-8B和ChatTTS,以及FastAPI和Gradio等技术,详细指导读者轻松实现个人AI小助手的构建,适合技术新手快速上手。

如果你的身边有一个随时待命、聪明绝顶的AI小助手,能够听懂你的话,理解你的需求,用温暖的声音回应你,会是一种什么体验?

今天,带大家从0到1搭建一个语音对话机器人,让你分分钟拥有一个专属的个人 AI 小助手。

本文面向技术小白,以最通俗易懂的语言,最贴心的步骤指导,确保你能够轻松上手,快速掌握。

语音对话系统的基本组成有哪些?
一个可以实现语音对话的机器人,通常需要由硬件和软件构成,硬件可以理解为机器人的躯体。

本篇主要来聊聊语音对话机器人的软件部分。

说到软件部分,通常又可以抽象为三个部分:

自动语音识别(Automatic Speech Recognition, 简称 ASR),相当于 机器人的耳朵,用于把我们的语音识别成文字;
自然语言处理(Natural Language Processing, 简称 NLP),相当于 机器人的大脑,理解上一步得到的文字信息,并进行答复,当前主流的解决方案是大语言模型LLM;
文本到语音合成(Text to Speech,简称 TTS),相当于 机器人的嘴巴,把上一步的答复用语音回答出来
在这里插入图片描述

如何快速搭建语音对话系统?
为了帮助大家从0到1快速完成一个系统的搭建,本文将完全采用开源方案来实现。具体而言:

ASR 采用 FunASR,相比 OpenAI 开源的 Whisper,中文识别效果更好;
NLP 采用大语言模型(LLM)方案,比如我们这里可以采用 LLaMA3-8B,采用本地的 GPU 部署和运行,如果没有本地 GPU 资源,也可以调用云端 API 实现这一步;
TTS 采用 最新开源的 ChatTTS,它是专门为对话场景设计的文本转语音模型,支持英文和中文两种语言,效果非常惊艳。
1 语音识别 ASR
ASR 采用阿里开源的 FunASR,相比 OpenAI 开源的 Whisper,中文识别效果更好。

GitHub地址: https://github.com/modelscope/FunASR 模型调用参考: https://modelscope.cn/studios/iic/funasr_app_clipvideo/summary
通过如下代码,我们简单测试一下返回结果和模型效果:

from funasr import AutoModel

asr model

funasr_model = AutoModel(model="iic/speech_seaco_paraformer_large_asr_nat-zh-cn-16k-common-vocab8404-pytorch",
vad_model="damo/speech_fsmn_vad_zh-cn-16k-common-pytorch",
punc_model="damo/punc_ct-transformer_zh-cn-common-vocab272727-pytorch",
spk_model="damo/speech_campplus_sv_zh-cn_16k-common",
)
rec_result = funasr_model.generate("test.wav", return_raw_text=False, is_final=True)
接下来我们需要将其封装成一个 API ,方便后续调用。最简单的我们可以采用 FastAPI 来实现封装,示例代码如下:

定义asr数据模型,用于接收POST请求中的数据

class ASRItem(BaseModel):
wav : str # 输入音频,base64编码
time_stamp : int = 0 # 时间戳,可选,默认为0

app = FastAPI()
@app.post("/asr")
async def asr(item: ASRItem):
time_stamp = int(item.time_stamp)
try:
data = base64.b64decode(item.wav)
rec_result = funasr_model.generate(data, return_raw_text=False, is_final=True)
res = rec_result[0]['sentence_info'] if time_stamp else rec_result[0]['text']
result_dict = {"code": 0, "msg": "ok", "res": res}
except Exception as e:
result_dict = {"code": 1, "msg": str(e)}
return result_dict

if name == 'main':
uvicorn.run(app, host='0.0.0.0', port=2002)
2 大语言模型(LLM)
为了实现对话功能,我们可以采用当前的大语言模型(LLM),对上一步识别出来的文字进行理解,并给出答复。

本文的 LLM 采用 LLaMA3-8B,开源社区已经实现了对 LLaMA3-8B 的中文指令微调,为此中文效果会比原始版本效果更好。

GitHub地址: https://github.com/ymcui/Chinese-LLaMA-Alpaca-3 模型地址: https://modelscope.cn/models/ChineseAlpacaGroup/llama-3-chinese-8b-instruct/summary
在上述的 GitHub 仓库中,给出了一键部署的脚本,非常方便。四步走搞定它:

下载代码
下载模型
安装必要的包
服务启动
step 1 下载代码:

git clone https://github.com/ymcui/Chinese-LLaMA-Alpaca-3
step 2 下载模型:

git clone https://www.modelscope.cn/ChineseAlpacaGroup/llama-3-chinese-8b-instruct.git
step 3 安装必要的包:

pip install fastapi uvicorn shortuuid sse_starlette peft bitsandbytes
pip install flash-attn --no-build-isolation # 如果要使用flash-attention的话
step 4 服务启动: 服务启动的代码如下,--base_model 替换为自己的模型路径,--load_in_4bit 指定了采用 4bit 量化。

注意:如果采用不量化的方案,显存占用12G,回复非常慢,有请求过来显存占用最高近14G,而采用4bit 量化,显存只占用 6G。

python scripts/oai_api_demo/openai_api_server.py \
--base_model /path/to/models/llama-3-chinese-8b-instruct/ \
--gpus 2 \
--port 2001 \
--load_in_4bit \
--use_flash_attention_2 \

log.txt 2>&1 &
step 5 服务调用:

为了定制你的个人 AI 助手,实现 LLM 的个性化回答,当然需要给它一个特定的人设 ,这一步可以通过人设提示词来轻松搞定。下面给一个示例:

from openai import OpenAI

枚举所有可用的模型服务

model_dict = {
'llama3-8b': {
'api_key': 'sk-xxx',
'base_url': 'http://10.18.32.170:2001/v1',
},
}

设置人设提示词,根据需要进行修改

prompt_dict = {
'llama3-8b': [
{"role": "system", "content": "你是猴哥的全能小助手,上知天文,下知地理,可解决生活中的一切困扰。"},
],
}

class LLM_API:
def init(self, api_key, base_url, model):
self.client = OpenAI(
api_key=api_key,
base_url=base_url,
)
self.model = model

def __call__(self, messages, temperature=0.7):
    completion = self.client.chat.completions.create(
        model=self.model,
        messages=messages,
        temperature=temperature,
    )
    return completion.choices[-1].message.content

if name == 'main':
model = 'llama3-8b'
llm = LLM_API(model_dict[model]['api_key'], model_dict[model]['base_url'], model)
user_question = "你是谁"
messages = prompt_dict[model] + [{"role": "user", "content": user_question},]
print(llm(messages))
如果本地没有 GPU 资源部署 大语言模型,也可以选择调用云端 API 来实现这一步,猴哥下一篇就来梳理一下: 我们都可以调用哪些免费的 LLM API?

欢迎追更!

3 语音生成(TTS)
为了将大模型输出的文字生成语音返回,这里我们采用 2024.5 刚开源的项目 - ChatTTS,生成效果非常惊艳。关于 ChatTTS 的具体使用,猴哥会单独出一篇教程,否则本文的篇幅就太长了。

同样还是采用 FastAPI 来实现封装,和部署 ASR 模型类似,在此不再赘述。

(PS:需要源码的可到文末自取~)

4 前端交互实现(Gradio)
Gradio是一个用于快速创建机器学习模型的交互式演示的开源库。它允许开发者通过简单的Python代码快速构建一个用户界面。

为了快速搭建应用,我们还是要请出我们的老朋友 - Gradio,交互界面如图所示:

WebUI 代码奉上:

import gradio as gr
from speech_client import asr_damo_api, tts_chat_api
from llm_client import LLM_API, prompt_dict, model_dict

host_avatar = 'assets/host_image.png'
user_avatar = 'assets/user_image.png'

model = 'llama3-8b'

model = 'gpt-4'

llm = LLM_API(model_dict[model]['api_key'], model_dict[model]['base_url'], model)

with gr.Blocks(theme=gr.themes.ThemeClass) as demo:
state = gr.State({'messages': []})
with gr.Row():
with gr.Column(scale=1):
user_chatbot = gr.Chatbot(
value=[[None, '欢迎你来!']],
elem_classes="app-chatbot",
avatar_images=[host_avatar, user_avatar],
label="交互区",
show_label=True,
bubble_full_width=False,
height=800)
with gr.Column(scale=1):
audio_user = gr.Audio(label="User Input", sources=['microphone'], type='filepath')
user_text = gr.Textbox(label="语音识别内容")
user_submit = gr.Button("提交", variant="primary")
audio_bot = gr.Audio(label="Bot Output", autoplay=True, type='filepath')

def process_audio(audio):
    print('Processing audio:', audio)
    text = asr_damo_api(audio, time_stamp=0, srt=False)
    print(text)
    return text

def user_submit_handler(user_text, state, chatbot):
    chatbot.append((user_text, None))
    yield (chatbot, None)
    messages = state['messages']
    if len(messages) == 0:
        messages = prompt_dict[model] + [{"role": "user", "content": user_text}]
    else:
        messages.append({"role": "user", "content": user_text})
    print(messages)
    response = llm(messages)
    chatbot.append((None, response))
    messages.append({"role": "assistant", "content": response})
    print(messages)
    state['messages'] = messages
    audio = tts_chat_api(response)
    print(audio)
    yield (chatbot, audio)

audio_user.stop_recording(process_audio, inputs=audio_user, outputs=user_text)
user_submit.click(user_submit_handler, inputs=[user_text, state, user_chatbot], outputs=[user_chatbot, audio_bot])

demo.launch(server_name='0.0.0.0', server_port=7861)
未完待续
至此,一个语音对话交互系统就搭建好了,当然目前只是为了演示基本功能,界面还比较简陋,在此基础上 ,还可以增加更多功能:

ASR : 目前采用的 FunASR 模型,在有噪声情况下识别效果还有待增强,需要找到更有效的平替;
LLM:模型本地部署对很多小伙伴还是有一定门槛,需要找到平价 or 免费的云端 API
TTS:ChatTTS的效果非常不错,后续可以增加说话人身份,实现更丰富的输出;支持流式对话,像 GPT-4o 那样自然打断。
如果本文对你有帮助,欢迎点赞收藏备用!

相关实践学习
阿里巴巴智能语音交互技术与应用
智能语音交互,是基于语音识别、语音合成、自然语言理解等技术,为企业在多种实际应用场景下,赋予产品“能听、会说、懂你”式的智能人机交互体验。适用于多个应用场景中,包括智能问答、智能质检、法庭庭审实时记录、实时演讲字幕、访谈录音转写等。 本课程主要讲解智能语音相关技术,包括语音识别、人机交互、语音合成等。  
目录
相关文章
|
人工智能 搜索推荐 云栖大会
解密!通义智文-你的AI阅读助手!
通义智文是基于通义大模型的AI阅读助手,网页阅读、论文阅读、图书阅读和自由阅读,用AI帮你读得多、读得快、读得懂。 通过文档场景化阅读、结构化导读、给我灵感、多文档处理等亮点功能和文档智能大小模型协同的核心技术。让AI帮你更准确,更深入,更专业的读懂文档,沉淀专属知识资产。 产品已于2023年10月31日在云栖大会正式对外发布,现免费公测全面开放。
1904 1
解密!通义智文-你的AI阅读助手!
|
Web App开发 机器学习/深度学习 人工智能
《使用魔搭开发自己的语音AI:从入门到精通》
《使用魔搭开发自己的语音AI:从入门到精通》
|
3月前
|
人工智能 自然语言处理 API
手把手教你搭建微信公众号AI助手
【8月更文挑战第6天】手把手教你搭建微信公众号AI助手
256 2
手把手教你搭建微信公众号AI助手
|
3月前
|
人工智能 数据管理 API
手把手教你搭建企业微信AI助手
全程图文,一步一步带你搭建基于云百炼的RAG应用,并配置知识库,让AI助手更专业、更智能。
378 1
|
1月前
|
存储 人工智能
非常棒的AI助手
体验阿里云的AI,我快速找到了删除按钮并成功删除了一直困扰我的存储桶,操作简便快捷。
35 2
|
2月前
|
人工智能 自然语言处理 算法
揭秘AI写作助手:技术原理与应用实践
在数字化浪潮的推动下,人工智能(AI)正逐步渗透到我们工作和生活的方方面面。本文将深入探讨AI写作助手的技术原理及其在不同场景的应用实例,旨在揭示这项技术如何助力内容创作、提升效率和质量。通过分析其背后的算法、数据处理方式以及实际运用效果,读者可以获得对AI写作工具更全面的认识,并了解如何利用这些工具优化自身的写作流程。
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
【智能助手体验】分享一款超好用的AI工具:Kimi
Kimi是一款由月之暗面科技有限公司开发的AI助手,具备强大的自然语言理解和文件内容解析能力,支持多种文件格式,并能结合互联网搜索提供全面答案。无论是在工作中的数据分析还是日常生活中的信息查询,Kimi都能给出满意的结果,展现出巨大的应用潜力。
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
利用 Coze 搭建专属 AI 厨师助手
利用 Coze 搭建专属 AI 厨师助手
91 5
|
4月前
|
存储 人工智能 弹性计算
通义万相AI绘画创作评测及图文搭建教程
【7月更文挑战第4天】阿里云的通义万相是AI绘画模型,结合ECS、OSS和API服务,提供无缝创作环境。用户上传图片至OSS,模型通过签名URL下载图片,然后生成AI艺术作品。模型服务具有高性能、易集成的特点,适用于多种场景如设计、广告等。用户可按指示在阿里云官网注册、充值、开通服务并部署。项目评测显示,其集成便捷、响应快、泛化能力强,但仍有改进空间,如增加图像控制选项和批量处理能力。相对于竞品,通义万相在成本、易用性和应用场景上有竞争力,值得推荐。
10573 9
|
4月前
|
人工智能 自然语言处理 IDE
通义灵码:程序员必备的AI编程助手!
通义灵码:阿里云AI编程助手,提供代码生成、智能问答、异常排查等功能,支持多种编程语言和IDE,如VSCode、JetBrains。具备跨文件感知、阿里云服务优化,现个人专业版限时免费。包括行级/函数级续写、自然语言转代码、单元测试生成、代码优化与注释、研发问答等。适用于Java、Python等语言
585 0