电话机器人系统的语音质量说明

简介: 数字化语音并没有从根本上改变语音的实质,用0与1表示的语音最后还是为了让人们听到。语音是一种模拟信息,数字化的作用就是使语音传输系统中的模拟噪声影响达到最小化。
    基于以上原因,一个数字化网络的性能是较容易测量的。方法是把串已知的0、1代码输入到网络中,然后把输出结果与输入的代码进行比较。把比特串进行匹配测试、准确率达到99%的网络显然要比一个准确度只有95%的网络性能要好(当然,这两个网络的性能实际上都是比较差的,但这里只是举一个例子)。模拟信号和模拟网络的质量测量并不是这样容易,比较速率为32kbit/s的ADPCM语音和64kbit/s的PCM语音质量的唯一方法就是重新模拟声音,然后让一些人用普通的电话机来听。
   在实际的应用中,要求评价参与者用1到5的级别来评价语音的质量,1表示“那是什么,根本听不清”,而5表示“和我说话的人离我好像很近,非常清楚”。在1到5之间的整数后面还可以加小数部分,直到达到评价人认为满意的效果,比如一个评价人可以这样作出评价:我喜欢这个语音,我认为等级是4.1。在选择评价用户时必须要有明显的差别,老年人和年轻人、男性和女性都要选一些,并且最少要有40人,而且这些人最好是对测试的方法不太了解,这样评价结果会更准确些。把得到的结果列表、算出平均水平(算术平均数),这个平均数就给出了语音质量的平均评价得分(MOS)。
   语音的MOS标准已经应用很长时间了。MOS广为人知,并且相对来说在测试的环境中比较容易实行。正式一点,评价的标准是:5表示非常好、4表示较好、3表示一般、2表示较差、1表示非常差。
   总之,第5等级通常被认为是局域网质量,通话的双方由同一中心局或者由通过干线连接的两个中心局提供服务;第4等级(或者再高一点)是长途电话质量,大多数的长途通话属于这一等级;在3与4之间的等级通常被认为是蜂窝移动电话质量:第2等级大多被认为是移动快速的对讲机的语音水平(这种质量的通话人们一般不愿意用):在第1与第2等级之间的语音质量比较差,有时几乎不可理解,需要不断地重复才能听清。通常的标准是陆线电话传输服务需要第4等级以上的语音质量,而无线电话传输服务则需要第3等级以上的语音质量。对于长途电话而言,显然用4.3等级提供的语音质量与用4.0等级提供的语音质量相比,前者的语音质量更高。![f47e79b942b4f09f69ca6e4ccce15628_1-22032Q0564A18.jpg](https://ucc.alicdn.com/pic/developer-ecology/25e9f868e82841dfba79127d42d239ea.jpg)

   业务供应商们发现64kbit/s的PCM语音的MOS值是4.5,32kbit/s的ADPCM语音MOS值是3.0。用更先进的ADPCM方法把PCM语音速率降低到16kbit/s将产生1.5的MOS值。
   所有这些与当前出现的速率低于64kbit/s的语音有什么关系呢?自从原先的ADPCM技术打破64kbit/s的限制,新的DSP芯片在价格上已经大大下降,而且处理能力大大提高。更为重要的是,新的LPC机运算法则(有时也称为语音压缩)已经成熟,可以避免出于用较少比特位来表示语音而造成MOS的值下降。这样我们就不应该再认为以16kbit/s的速率传输语音MOS值只是2或者更低。本章中提到的几乎所有的技术都能够使语音质量的MOS值达到3以上,有时甚至可达到3.5或者更高。
   除了用MOS值方法测量语音质量之外,还有其他的模拟语音质量测试方法。最为普遍应用的是诊断程序韵律测试(DRT)和诊断程序可接受性测试(DAM)两个系统,这两种方法测量语音质量依据的标准更精细。例如,一个4.0的MOS值可以转化为95的DRT值,或者转化为70的DAM值。DRT法和DAM法与MOS法相比更为复杂。就DAM法来说,考虑到评价者们可能对语音的质量评价不一致,但对背景噪声的评价一致的情况,所以DAM法要求评价者分别评价语音质量,背景噪声和总体效果,一共是21分,语音质量本身是10分,背景噪声是8分,可理解性、舒适性和整体可接受性的总体效果是3分。近来,一些业务供应商开始提出测试尺度从1到10的MOS法,这比尺度从1到5的MOS法更为自然,更准确。在这些业务供应商提供的产品使用资料中,MOS值增倍,原来为4.0的MOS值现在变为8.0,依此类推。
相关文章
|
Ubuntu 机器人 Linux
|
人工智能 机器人 语音技术
ai智能语音机器人运营的核心
​  运营机器人核心关注的只有两个点,一个是机器人话术库的关键词是否充足,二是对录音的高要求。每一个话术,都把它当成一个重要的项目来做。比如做需求调研,学习客户的行业知识,了解他们这个行业打电话的语气语调。其它的东西,能拿出来运营的机器人产品,核心的东西都不会差到哪去。有关系统问题欢迎看博主名字一起技术交流。![](https://p3-juejin.byteimg.com/tos-cn-i-k3u1fbpfcp/e1589ad7c9f1423bb24c7f5f6a2bcc42~tplv-k3u1fbpfcp-jj-mark:0:0:0:0:q75.image#?w=814&h=232&s=
ai智能语音机器人运营的核心
|
11月前
|
Web App开发 机器学习/深度学习 人工智能
Weebo:支持多语言和实时语音交流的开源 AI 聊天机器人,回复具备语调、情感的语音
Weebo 是一款基于 Whisper Small、Llama 3.2 和 Kokoro-82M 技术的 AI 语音聊天机器人,支持实时语音交互和多语言对话,适用于个人助理、娱乐互动和教育辅导等多种场景。
1067 17
Weebo:支持多语言和实时语音交流的开源 AI 聊天机器人,回复具备语调、情感的语音
|
传感器 人工智能 算法
适应多形态多任务,最强开源机器人学习系统八爪鱼诞生
【6月更文挑战第6天】【八爪鱼开源机器人学习系统】由加州大学伯克利分校等机构研发,适用于多形态多任务,已在arXiv上发表。系统基于transformer,预训练于800k机器人轨迹数据集,能快速适应新环境,支持单臂、双机械臂等。特点是多形态适应、多任务处理、快速微调及开源可复现。实验显示其在9个平台有效,但仍需改进传感器处理和语言指令理解。论文链接:https://arxiv.org/pdf/2405.12213
466 1
|
12月前
|
人工智能 安全 机器人
OpenAI重拾规则系统,用AI版机器人定律守护大模型安全
在人工智能领域,大语言模型(LLM)展现出强大的语言理解和生成能力,但也带来了安全性和可靠性挑战。OpenAI研究人员提出“规则基于奖励(RBR)”方法,通过明确规则引导LLM行为,确保其符合人类价值观和道德准则。实验显示,RBR方法在安全性与有用性之间取得了良好平衡,F1分数达97.1。然而,规则制定和维护复杂,且难以完全捕捉语言的多样性。论文:https://arxiv.org/pdf/2411.01111。
391 13
|
算法 机器人 语音技术
由通义千问驱动的人形机器人具身智能Multi-Agent系统
申昊科技人形机器人小昊,集成通义千问多模态大模型的具身智能系统,旨在讲解销售、迎宾表演等场景。机器人通过语音、动作等方式与用户互动,利用云端大语言模型处理自然语言,结合视觉、听觉等多模态感知技术,实现流畅的人机对话、目标追踪、展厅讲解等功能。
1343 4
由通义千问驱动的人形机器人具身智能Multi-Agent系统
|
机器人 PHP
QQ云端机器人登录系统php源码
QQ云端机器人登录系统php源码
1077 4
|
自然语言处理 算法 机器人
智能电话销售机器人源码搭建部署系统电话机器人源码
智能电话销售机器人源码搭建部署系统电话机器人源码
215 4
|
人工智能 机器人 Shell
AI语音机器人安装方法 AI机器人安装代码
AI语音机器人安装方法 AI机器人安装代码
211 2
|
人工智能 自然语言处理 机器人
智能语音机器人底层系统设计逻辑机器人源码系统逻辑
简介: — 1 —智能客服背景智能语音客服机器人是在传统的客服系统基础上,集成了语音识别、语义理解、知识图谱、深度学习等多项智能交互技术,能准确理解用户的意图或提问,再根据丰富的内容和海量知识图谱,给予用户满意的回答。目前已广泛应用于金融、保险、汽车、房产、电商、政府等多个领域。

热门文章

最新文章