智能语音技术的处理对象(一)

本文涉及的产品
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
实时计算 Flink 版,5000CU*H 3个月
简介: 智能语音技术的处理对象(一)

开发者学习笔记【阿里云人工智能工程师ACA认证(2023版):智能语音技术的处理对象(一)】

课程地址https://edu.aliyun.com/course/3112108/lesson/19284

 

智能语音技术的处理对象(一)

 

内容介绍

一、语音的基本常识

二、 智能语音技术的处理对象

三、 智能语音技术的处理对象

 

一、语音的基本常识


1、语音的产生

图片653.png

人是怎么样发生的呢?人的发生的器官声带在这里,人的声音是怎么发出来的?是肺部扑出的气流经过支气管到喉头后喉头中的声带开始颤动震动,然后产生声音,我们用口腔或者是鼻箱来控制发生的位置,声音就产生了。在所有的动态里面,人的语言系统应该是最复杂的。所以人的发声的能力也是非常的复杂,非常的幸运,还有一些知识。声音是通过声态的震动,声音是物体震动产生的,声波是通过空气或者是物体或者通过介质传播,然后被人的器官感受到波动,所以人听到声音也是感知到了这个波动,但人可以识别声波,它的频率在20赫字到两万赫兹之间,这是人能听到的声音的频率,再往高的频率就是超声波了,往低的频率就是次声波,这是语音的产生。

 

2、语音的物理载体及其特征属性

图片654.png

声音的传播是通过空气的震动进行的。那么语音的物理载体机制就是声波作为物理载体,当然会有很多属性。声波的属性分为以下4个音色,音调音高和音长,音色也叫音质,包含声音的谐振波部分,是区别声音的基本特质,比如同样的声音,小提琴发出的声音就不一样。这就是他们的因色的不同音调,音调是声波的频率,唐琴人说,降调声调这里说的就是音调。第三个是音高,音高是升波的强度或者是震动的幅度决定的,比如发出海豚音,就是很高的一种音高,最后一个是音长,音长就是发音的持续的时间,通俗一点说就是拉长音。

 

3、语音与语言

我们来解析一下语音和语言,他们也有关联,但是完全不是一回事。
图片655.png语音的内涵,第一个语音是人类语言的物体表达。还有一种说法是语言的物质载体,是大家想一想,我们对某种语言的第一感知识是么?我们如果学习某种语言,首先要学什么?先要学语音,比如说英语的语音,日语的语音,汉语的语音,或者是普通话或者是方言的语音,什么叫物质表达?一个人他可能心里面有很多想说的话在心里,但是他没有说出来,没有表达出来,这个时候就没有形成语音,还有组织语言,但是没有表达出来,那文字就是如果他有心里有想法,然后他把想法什表达的写出来,但是,其实文字你可以认为只是语音语音的一种转换的形式。你可以认为文字是把语音转换了,然后写成了某种符号,所以说相对文字来说,语音才是最直接的记录人的思维活动,语音是语言的外部形式,或者说语音是语言的物质外壳,是人类语言的载体,这里讲到人的语音是人的发音器官发出的具有一定社会意义的声音,这句话也很人可以通过其他的形式发出声音对吧?但是,一定要是通过人的发音器官发出的才是语音啊。如果人去研究乐器而不是人的语音,那这里还强调了是具有一定社会意义的声音。那如果没有社会意义,比如说这个人他跟咳嗽了,或者说他被多角碰到一下,这种算不算语音的他没有社会意义,我们觉得是一定要发出的具有社会意义的声音才是音。语音是声音和语言的组合体,语音里面既有语言啊,也有声音,相同的声音,可以发出,求出不同的语言,那同样一段语言,可以有不同的声音去发出语音,把这两方面都包含。最后一句是语音,是一段携带语言信息的声音,这里面就强调了语音里面要携带有信息,语言信息。

接下来是音节的概念,什么是音节?
图片656.png能够自然发出的,觉察到的最小的零单位,能够自然发出的觉察到的最小的运营单位,一个音节是由一个获得几个原因和辅音按照一定的规则来组织起来的。


在英语的发音里,英语单词发音的时候,是根据这个字母的拼凑进行发音,这几个字母拼凑起来叫一个音节,比如说这个单词red,这是划分成两个音节,还有单词是p,那么s。 P是三个音节,汉语的发音一般来说是一个字一个音节,一个字一个音节,比如说语音,这两个字就是语音。两个音节,这是语音的单位,音节是语音的单位。

 

二、智能语音技术的处理对象


1、语音信号的介绍

图片657.png

 人类通过语音讲交流,一个人张开嘴把发出声音,这个声音我们前面所说的通过震动然后传播另外一个人,他耳朵能够收集采集到这种震动,然后把它解释,翻译然后就收到了。听到了我们说的话,这个信号就通过空气震动这个能量就传过去了,对方就听到了声音,我们就能够快速的彼此的沟通了,那语音是人类交流的这种方式,也就是说,我们说话主要目的是什么,是交流,人类交流的发生形式,那根本的目的是什么,就是说话的人和听的人之间的信息的传递好,我们现在要做的事情是怎么样把语音做当做信号去处理?怎么样,把语音采集,然后把它保存,把它传播,再把它呈现出来,或者叫播放出来,能因为语音传播出去的时候,靠的是什么,是空气的震动。


当我们通过空气来传播声音的时候,靠的是震动,我们是不是把这个空气的震动这个声波的波形把它记录下来,语音的信号记录下来的。这个模拟的信号可能像下面的这个图所是可能长的,这个图里面记录的声音的,语音的这个声波波形是这样,开始的时候,这个声波是非常的平稳的,非常平稳的一段,然后后来在说话的过程中,这个声波发生了比较大的变化。这个非常明显,所以我们这里说语音信号是本身是非常不平稳的,信号背景的声音是非常平稳的,语音是非平稳的,是短时的,有一些录音的软件或者说音乐的软件,它会把这个声波以一种可视化的方式呈现出来,你就能看到有语音的时候,那个声波的种,像是发生很烈的波动的,这种信号的采集是可以有模拟的形式的,也有数字的形式的,那早期的录音机,它都是采集人类的语音的信息的模拟的形式,用这种方式去采集声音,比如说很早期的那种,就教的那种那种唱片,其实就是用模拟的形式去进录声音的。

 

2、语音信号的特点

但是现在觉着技术的发展,大部分的信号都是采用数字形式,语音的信号,它有数字的形式给我模拟的形式。一般用麦克风麦克风去采集音信号,采集语音信号之后,可能要把它转换成成电子的波型麦克风。采集信号一般要经过采样或者是ad转换,魔术转换这种方式把模拟信号转换成数字信号,一般是转换成这个数字信号,然后对数字信号可以有很多的处理的方式,比如说分针架窗,滤波等等。

图片658.png把这个模拟信号变成数字信号之后,就很方便的对这个信号进行存储,进行处理,进行传输,那在传输的过程中可以再进行转换,把数字信号的转换成模拟信号,由扬声器或者是耳机把这个声音再换回升取的方式,当播放到后来之人就可以听到了,所以语音信号呢?它是一个可逆的过程。采集信号,采集完把模拟信号转化成数字信号,把它存储起来,又可以由量声器再播放出来,再转换。

 

3、语音信号处理

图片659.png我们前面也讲的语音是一种信号。我们把语音当成信号去处理,处理的过程中,可能将语音信号转换成为另一种隐信号,通过这个过


程来接释语音信号的不种数学或者是实质的限制,并且可以进行一些适当的处理,比如这个信号弱小的时候,可以对它进行放大。造成的时候,可预波,可以调制或者协调,可以均匀衡,语音信号处理的的目的,首先要理解语音是一种交流的手段。把语音转换成数字信号的时候,能看到这信号,这就是用来交流的。你对它进行人信号处理之后,就有利于它的传播和复制,就是把它当成信号去传播和复制,那么对于语音这种信号进行分析,可以自动识别和提听提取信息,就是识别语音和从语音里面提取信息出来,那语音这种信号还比较特别,处理完之后可以发现说访者的一些生理的特征。

相关文章
|
19天前
|
机器学习/深度学习 算法 人机交互
智能语音识别技术的最新进展与未来趋势####
【10月更文挑战第21天】 在当今这个信息爆炸的时代,人机交互方式正经历着前所未有的变革。本文深入探讨了智能语音识别技术的前沿动态,从深度学习模型的创新应用到跨语言、跨领域的适应性增强,揭示了该领域如何不断突破技术壁垒,提升用户体验的真实案例与数据支撑。通过对比分析当前主流算法的性能差异,本文旨在为研究者和开发者提供一幅清晰的技术演进蓝图,同时展望了多模态融合、情感识别等新兴方向的广阔前景。 ####
121 7
|
1月前
|
机器学习/深度学习 存储 人工智能
智能语音识别技术的深度剖析与应用前景####
本文深入探讨了智能语音识别技术的技术原理、关键技术突破及广泛应用场景,通过具体实例展现了该技术如何深刻改变我们的日常生活和工作方式。文章还分析了当前面临的挑战与未来发展趋势,为读者提供了一幅全面而深入的智能语音识别技术图景。 ####
|
1月前
|
机器学习/深度学习 搜索推荐 语音技术
智能语音识别技术在智能家居中的应用与挑战####
本文深入探讨了智能语音识别技术的基本原理、关键技术环节,以及其在智能家居领域的广泛应用现状。通过分析当前面临的主要挑战,如环境噪音干扰、方言及口音识别难题等,文章进一步展望了未来发展趋势,包括技术融合创新、个性化服务定制及安全隐私保护的加强。本文旨在为读者提供一个关于智能语音识别技术在智能家居中应用的全面视角,同时激发对该领域未来发展方向的思考。 ####
94 6
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
智能语音识别技术在多语言环境中的应用与挑战####
随着全球化的不断推进,跨语言交流的需求日益增长,智能语音识别技术成为连接不同语言文化的桥梁。本文旨在探索该技术在多语言环境中的应用现状、面临的挑战及未来发展趋势,通过深入分析技术瓶颈与创新策略,为促进全球无障碍沟通提供新视角。 ####
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
智能语音识别技术的现状与未来发展趋势####
本文旨在探讨智能语音识别技术的发展历程、当前主要技术特点、面临的挑战以及未来的发展趋势。通过综述该领域的最新研究进展和应用实例,本文为读者提供了一个关于智能语音识别技术的全面概览,并展望了其在未来可能的发展方向。 ####
|
2月前
|
存储 自然语言处理 搜索推荐
智能语音识别技术在医疗健康领域的深度应用与前景####
本文深入探讨了智能语音识别技术在医疗健康领域的多维度应用,从电子病历的高效录入到远程诊疗的无缝对接,再到患者教育与健康管理的个性化服务,展现了该技术如何显著提升医疗服务效率与质量。通过分析典型应用场景、挑战及解决方案,本文揭示了智能语音识别技术在推动医疗行业智能化转型中的关键作用,并展望了其未来发展趋势与广阔前景。 ####
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
智能语音识别技术在多语言环境下的挑战与优化策略###
随着全球化的加速推进,智能语音识别技术作为人机交互的关键一环,其跨语言适应性成为了研究热点。本文深入探讨了智能语音识别技术在多语言环境下面临的挑战,包括口音差异、词汇多样性、语法结构复杂性等,并提出了相应的优化策略。通过对比分析不同算法和技术路线,本文旨在为提升智能语音识别系统的跨语言性能提供理论依据和实践指导。 ###
|
2月前
|
机器学习/深度学习 算法 语音技术
智能语音识别技术在医疗健康领域的应用与挑战####
本文深入探讨了智能语音识别技术(Intelligent Speech Recognition, ISR)在医疗健康领域的现状、应用实例及面临的主要挑战。通过分析ISR技术的基本原理,结合其在电子病历记录、远程医疗咨询、患者监护及健康管理等方面的实际应用案例,揭示了该技术如何提升医疗服务效率、改善医患沟通并促进个性化医疗的发展。同时,文章也指出了数据隐私保护、方言与口音识别难题、技术准确性及用户接受度等关键挑战,为未来研究和技术优化提供了方向。 ####
|
2月前
|
机器学习/深度学习 搜索推荐 人机交互
智能语音识别技术的现状与未来发展趋势####
【10月更文挑战第29天】 本文深入探讨了智能语音识别技术的发展历程、当前主要技术特点、面临的挑战及未来发展趋势。通过综述国内外最新研究成果,分析了深度学习在语音识别领域的应用现状,并展望了多模态融合、端到端建模等前沿技术的潜在影响。文章还讨论了隐私保护、数据安全等问题对技术发展的影响,以及跨语言、跨文化适应性的研究方向。 ####
|
2月前
|
机器学习/深度学习 自然语言处理 算法
智能语音助手的未来:从技术到伦理的探索
【10月更文挑战第21天】 本文探讨了智能语音助手的发展历程、当前技术现状以及面临的伦理挑战。通过对现有技术的深入分析,文章揭示了智能语音识别和自然语言处理技术的进步对日常生活的影响,同时指出了数据隐私、算法偏见和人机交互等方面的伦理问题。最后,文章提出了对未来智能语音助手发展的展望,强调了在技术创新的同时,必须考虑到伦理和社会影响的重要性。
158 0