TEN VAD 与 Turn Detection 让 Voice Agent 对话更拟人

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,100CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
简介: GPT-4o 所展示对话式 AI 的新高度,正一步步把我们在电影《Her》中看到的 AI 语音体验变成现实。AI 的语音交互正在变得更丰富、更流畅、更易用,成为构建多模态智能体的重要组成部分。


image.gif 编辑

GPT-4o 所展示对话式 AI 的新高度,正一步步把我们在电影《Her》中看到的 AI 语音体验变成现实。AI 的语音交互正在变得更丰富、更流畅、更易用,成为构建多模态智能体的重要组成部分。

 

但是,“最后一公里”的挑战仍然存在:Voice Agent 依然不像真人一样交谈。

 

在真实对话里,插话、停顿、甚至讲话重叠都很常见。如果语音 AI 的回应太早、太晚、或者干脆没有回应,整个用户体验就会变得很“出戏”。对话中的“怎么说”往往比“说了什么”更重要。一段停顿可能代表犹豫、礼貌、自信等不同含义。为了让语音 AI 真正像人类一样交谈,它不能只是“听见”并“答复”——它需要真正倾听、理解上下文、并自然地应对。

 

为了解决以上问题,为大家介绍两款新模型:

-TEN VAD(语音活动检测)

-TEN Turn Detection(轮次检测)

 

这两个模型是由声网和RTE开发者社区主要支持,基于声网十余年实时语音深度研究成果与超低延迟技术积累所打造的高性能模型,能够让 AI Agent 的交互体验更加自然,任何人都可以自由使用。这两款模型也将作为开源对话式 AI 生态体系 TEN 的核心模块持续迭代优化。

 

模型链接:

TEN VAD模型链接:

https://modelscope.cn/models/TEN-framework/ten-vad

 

TEN Turn Detection模型链接:

https://modelscope.cn/models/TEN-framework/TEN_Turn_Detection

 

TEN VAD Github:

https://github.com/TEN-framework/ten-vad

 

TEN Turn Detection Github:

https://github.com/TEN-framework/ten-turn-detection

 

01.TEN VAD:语音活动检测

TEN VAD 是一个轻量的,低延迟,低功耗,高准确率语音活动检测模型,通常用于语音输入 LLM 前的预处理步骤:

  • 识别音频帧中是否有人声;
  • 判断一句话的开始和结束位置;
  • 过滤掉无关音频(背景噪音、静音等);

通过 TEN VAD 预处理,可以提升语音识别(STT)的准确性,同时显著降低处理成本——避免将无意义的声音送入到 STT 流程中从而产生开销。

 

目前 TEN VAD 已开源了 ONNX 模型及预处理代码,并同时提供了可供 Linux(.so)、Windows(.dll)、macOS & iOS(.framework)、Android(.so)、Web(.wasm)平台调用所需二进制文件及示例代码,开箱即用。

 

👉一键Start :https://github.com/TEN-framework/ten-vad

 

02.TEN Turn Detection:轮次管理

TEN Turn Detection 的核心功能是对话论次判断,在判断用户何时停止说话方面有不错的表现,这点对于 AI 语音交互的「自然感」方面十分重要。在真实交流中,AI 需要区分出「中途停顿」与「说完了」的差别。插话太早会打断人类思路,太迟回应则会显得迟钝、不自然。

 

TEN Turn Detection 支持中英文、支持全双工语音交互(允许用户和 AI 同时说话),并通过分析语言模式,判断说话者是在思考、犹豫,还是已经表达完毕,用以 AI 判断「该说」还是「该听」,从而让对话更加流畅自然。

 

03.性能对比

与目前常用的 WebRTC Pitch VAD 和 Silero VAD 相比,在公开的 TEN VAD 测试集上(来自多场景、逐帧人工标注),TEN VAD 展示出了更优的效果。

 

image.gif 编辑

 

在延迟方面 TEN VAD 同样领先。它能快速检测语音与非语音之间的切换,而 Silero VAD 则存在数百毫秒的延迟,导致人机交互系统的端到端延迟和打断延迟增加。

 

image.gif 编辑

而针对 TEN Turn Detection ,在多场景测试数据集上和其他同类开源模型进行对比,各模型的表现如下:

 

image.gif 编辑

一个真实用户案例显示,使用 TEN VAD 后,音频传输数据量减少了 62%,显著降低了语音服务成本。

04.实践教程

通过 git clone 使用:

1、克隆仓库

git clone https://github.com/TEN-framework/ten-vad.git
cd ten-vad
apt install libc++-dev

image.gif

2、进入 examples 目录

cd ./examples

image.gif

3、测试

python test.py s0724-s0730.wav out.txt

image.gif

TEN 轮次检测模型推理代码

from modelscope import AutoTokenizer, AutoModelForCausalLM
import torch
# Load model and tokenizer
model_id = 'TEN-framework/TEN_Turn_Detection'
model = AutoModelForCausalLM.from_pretrained(model_id, trust_remote_code=True, torch_dtype=torch.bfloat16)
tokenizer = AutoTokenizer.from_pretrained(model_id, trust_remote_code=True)
# Move model to GPU
model = model.cuda()
model.eval()
# Function for inference
def analyze_text(text, system_prompt=""):
    inf_messages = [{"role":"system", "content":system_prompt}] + [{"role":"user", "content":text}]
    input_ids = tokenizer.apply_chat_template(
        inf_messages, 
        add_generation_prompt=True, 
        return_tensors="pt"
    ).cuda()
    with torch.no_grad():
        outputs = model.generate(
            input_ids, 
            max_new_tokens=1, 
            do_sample=True, 
            top_p=0.1, 
            temperature=0.1, 
            pad_token_id=tokenizer.eos_token_id
        )
    response = outputs[0][input_ids.shape[-1]:]
    return tokenizer.decode(response, skip_special_tokens=True)
# Example usage
text = "Hello I have a question about"
result = analyze_text(text)
print(f"Input: '{text}'")
print(f"Turn Detection Result: '{result}'")

image.gif

点击阅读原文,即可跳转模型链接~

https://modelscope.cn/organization/TEN-framework

目录
相关文章
|
23天前
|
机器学习/深度学习 人工智能 自然语言处理
B站开源IndexTTS2,用极致表现力颠覆听觉体验
在语音合成技术不断演进的背景下,早期版本的IndexTTS虽然在多场景应用中展现出良好的表现,但在情感表达的细腻度与时长控制的精准性方面仍存在提升空间。为了解决这些问题,并进一步推动零样本语音合成在实际场景中的落地能力,B站语音团队对模型架构与训练策略进行了深度优化,推出了全新一代语音合成模型——IndexTTS2 。
1192 23
|
机器学习/深度学习 人工智能 算法
Post-Training on PAI (3):PAI-ChatLearn,PAI 自研高性能强化学习框架
人工智能平台 PAI 推出了高性能一体化强化学习框架 PAI-Chatlearn,从框架层面解决强化学习在计算性能和易用性方面的挑战。
|
3月前
|
人工智能 JSON JavaScript
用 AI + 高德地图 MCP,3 小时做出杭州美食地图
本文记录了一次从灵光一现到快速落地的 AI + 地图服务实践,通过结合 Cursor 与高德 MCP 地图服务平台,作者仅用几个小时就实现了一个可交互、可筛选、可推荐的杭州美食地图应用。
615 23
用 AI + 高德地图 MCP,3 小时做出杭州美食地图
|
3月前
|
人工智能 自然语言处理 搜索推荐
从输入指令到代码落地:Cline AI 源码浅析
文章揭示了Cline如何将简单的自然语言指令转化为具体的编程任务,并执行相应的代码修改或生成操作。
481 18
从输入指令到代码落地:Cline AI 源码浅析
|
3月前
|
JSON 安全 Java
API 一键转换 MCP 服务!Higress 助今日投资快速上线 MCP 市场
今日投资的技术负责人介绍了如何通过Higress MCP 市场完善的解决方案,快捷地将丰富的金融数据 API 转化为 MCP 工具,帮助用户通过 MCP 的方式非常轻松地调用专业金融数据,自由快速地构建自己的金融大模型应用。
495 23
|
3月前
|
人工智能 自然语言处理 运维
【新模型速递】PAI-Model Gallery云上一键部署Qwen3-Coder模型
Qwen3-Coder 是通义千问最新开源的 AI 编程大模型正式开源,拥有卓越的代码和 Agent 能力,在多领域取得了开源模型的 SOTA 效果。PAI 已支持最强版本 Qwen3-Coder-480B-A35B-Instruct 的云上一键部署。
|
3月前
|
人工智能 大数据 开发者
让AI时代的卓越架构触手可及,阿里云技术解决方案开放免费试用
阿里云推出基于场景的解决方案免费试用活动,新老用户均可领取100点试用点,完成部署还可再领最高100点,相当于一年可获得最高200元云资源。覆盖AI、大数据、互联网应用开发等多个领域,支持热门场景如DeepSeek部署、模型微调等,助力企业和开发者快速验证方案并上云。
4361 148
让AI时代的卓越架构触手可及,阿里云技术解决方案开放免费试用

热门文章

最新文章