半小时验证语音降噪—贾扬清邀你体验快捷云上开发 | 《阿里云机器学习PAI-DSW入门指南》

简介: 本文将实战讲解贾扬清在回答内部同学提出的业务问题时,给自己设的一个挑战:半小时内架构一个有体感的demo,达到语音降噪的效果。

点击即可参与机器学习PAI-DSW动手实验室

点击可下载完整电子书《阿里云机器学习PAI-DSW入门指南》

语音降噪,在开源领域通过科学计算肯定有现有的解决方案。从业务需求上讲,最有价值的一件事情是,怎么让大家能迅速地做POC,架起解决方案?
本文将实战讲解贾扬清在回答内部同学提出的业务问题时,给自己设的一个挑战:半小时内架构一个有体感的demo,达到语音降噪的效果。

半小时实验达到的语音降噪的效果

首先给大家看一下最终的效果。我录了一个关着吸尘器的时候的语音:

In [2]:

import IPython
IPython.display.Audio('https://notebook-dataset.oss-cn-beijing.aliyuncs.com/noises/normal.wav')

Out[2]:
https://developer.aliyun.com/topic/download?id=826

以及开着吸尘器的时候讲话的语音:
In [3]:

IPython.display.Audio('https://notebook-dataset.oss-cn-beijing.aliyuncs.com/noises/voice_with_noise.wav')

Out[3]:
https://developer.aliyun.com/topic/download?id=827

以及,通过降噪以后,带着吸尘器的那一段音频的降噪效果:
In [4]:

IPython.display.Audio('https://notebook-dataset.oss-cn-beijing.aliyuncs.com/noises/voice_reduced_noise.wav')

Out[4]:
https://developer.aliyun.com/topic/download?id=828

效果怎么样?
在实际业务当中,我们的思路往往不是上来就开始钻研算法,而是按照这样的一个思路:

  • 怎么将业务问题翻译成技术问题?
  • 有没有现有解决方案来测试一下效果?
  • 效果好的话,怎么落地?
  • 效果不好的话,怎么做算法迭代?

今天想展示的就是通过DSW快速解决前两个问题,即如何迅速安装开源的算法包、做数据的可视化、到最后算法效果的测试这整个流程。用现有的平台迅速地验证这些业务问题的效果,是不是一件很有意思的事情呢?

通过DSW快速验证

首先,通过搜索,我们发现有一个github的项目,noisereduce,和我们需要解决的场景很相似。基本上,可以通过两段语音,一段是噪音(做建模),一段是带噪音的语音,来实现降噪的效果。

对于标准的Python算法包,在DSW里面拉起很容易。因为DSW预装了底层的一些科学计算框架,比如说TensorFlow,因此只需要安装新增的这些包的需求:
In [5]:

!pip install noisereduce > /dev/null

我拿iPhone和家里的吸尘器录了几段视频,上传到DSW上面,然后就是大家常见的码代码了:

In [6]:

from matplotlib import pyplot
import io
import noisereduce as nr
import numpy as np
import soundfile as sf
from urllib.request import urlopen
/Users/huanghong/opt/anaconda3/lib/python3.7/site-packages/tqdm/autonotebook.py:17: TqdmExperimentalWarning: Using `tqdm.autonotebook.tqdm` in notebook mode. Use `tqdm.tqdm` instead to force console mode (e.g. in jupyter console) " (e.g. in jupyter console)", TqdmExperimentalWarning)

In [7]:

# 先把音频文件导入进来:
normal_data, normal_rate = sf.read(io.BytesIO(urlopen('https://notebook-dataset.oss-cn-beijing.aliyuncs.com/noises/normal.wav').read()))
noise_data, noise_rate = sf.read(io.BytesIO(urlopen('https://notebook-dataset.oss-cn-beijing.aliyuncs.com/noises/noise.wav').read()))
mixed_data, mixed_rate = sf.read(io.BytesIO(urlopen('https://notebook-dataset.oss-cn-beijing.aliyuncs.com/noises/voice_with_noise.wav').read()))
# iPhone的音频是立体声的,我们只处理一个声道,所以我们先选单声道。
normal_data = np.ascontiguousarray(normal_data[:,0])
noise_data = np.ascontiguousarray(noise_data[:,0])
mixed_data = np.ascontiguousarray(mixed_data[:,0])
rate = normal_rate

我们可以用Notebook的功能来播放这些音频。在开头大家已经听过样例了,这里我们听一下噪声:
In [8]:

IPython.display.Audio(data=noise_data,rate=rate)

Out[8]:
https://developer.aliyun.com/topic/download?id=829

对于噪声文件,我们来截取中间一段作为噪声的建模。先看看,哪段比较合适。

In [9]:

pyplot.plot(noise_data)

Out[9]:
[]
image.png
看来,截取40000到200000的这一段最合适,我们剪一下。

In [10]:

noise_data = noise_data[40000:200000]
pyplot.plot(noise_data)

Out[10]:
[]
image.png

然后,我们就可以直接调用一下noisereduce里面的功能看看结果怎么样。一行代码:

In [11]:

reduced_version = nr.reduce_noise(audio_clip=mixed_data, noise_clip=noise_data)

我们来听一下,降噪之后的语音效果怎么样。

In [12]:

IPython.display.Audio(data=reduced_version,rate=rate)

Out[12]:
https://developer.aliyun.com/topic/download?id=830

再听一下降噪之前的版本。

In [13]:

IPython.display.Audio(data=mixed_data,rate=rate)

Out[13]:
https://developer.aliyun.com/topic/download?id=831

我们可以把降噪之后的版本存下来:

In [14]:

sf.write('voice_reduced_noise.wav', reduced_version, rate)

算法是AI的核心,但是要实现业务,功夫在算法之外。

大家可以看到,在上面的样例当中,其实核心算法很短:首先,有大量的开原算法可以让我们快速验证现有的技术在不同场景当中的价值;其次,很多应用并不一定在第一时间就需要特别高大上的算法。对于关注业务的工程师来说,如何快速做POC,验证可行性,然后从浅到深来把算法落地,做算法创新,实现业务落地,这是我们今天关注的重点。

今天,一切业务都会数据化,一切数据都会业务化。相应的,一切应用就会数据化和智能化。我们对AI的看法可以用英语来做一下类比:几十年前,英语是一种服务,我们雇佣专业的翻译来帮我们做业务;但是今天,英语是一种工具,我们绝大多数人用各种工具来学习英语,使用英语。

这就对平台提出了更高的要求。PAI一直向“最懂你的AI平台”不断努力。DSW(Data Science Workshop)这个产品,目标是给大家一个云上托管的,易用、开放的机器学习和深度学习开发平台,让大家很容易地能够拉起一个典型的开发环境,迅速投入到算法和应用的开发当中。

相关实践学习
使用PAI+LLaMA Factory微调Qwen2-VL模型,搭建文旅领域知识问答机器人
使用PAI和LLaMA Factory框架,基于全参方法微调 Qwen2-VL模型,使其能够进行文旅领域知识问答,同时通过人工测试验证了微调的效果。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
相关文章
|
机器学习/深度学习 人工智能 自然语言处理
Cosmos on PAI系列一:PAI-Model Gallery云上一键部署NVIDIA Cosmos Reason-1
本篇文章介绍 Cosmos 最新世界基础模型 Cosmos Reason-1 如何在阿里云人工智能平台 PAI 上进行快速部署使用。
|
人工智能 自然语言处理 数据挖掘
云上玩转Qwen3系列之三:PAI-LangStudio x Hologres构建ChatBI数据分析Agent应用
PAI-LangStudio 和 Qwen3 构建基于 MCP 协议的 Hologres ChatBI 智能 Agent 应用,通过将 Agent、MCP Server 等技术和阿里最新的推理模型 Qwen3 编排在一个应用流中,为大模型提供了 MCP+OLAP 的智能数据分析能力,使用自然语言即可实现 OLAP 数据分析的查询效果,减少了幻觉。开发者可以基于该模板进行灵活扩展和二次开发,以满足特定场景的需求。
|
人工智能 运维 API
PAI-Model Gallery云上一键部署阶跃星辰新模型Step1X-Edit
4月27日,阶跃星辰正式发布并开源图像编辑大模型 Step1X-Edit,性能达到开源 SOTA。Step1X-Edit模型总参数量为19B,实现 MLLM 与 DiT 的深度融合,在编辑精度与图像保真度上实现大幅提升,具备语义精准解析、身份一致性保持、高精度区域级控制三项关键能力;支持文字替换、风格迁移等11 类高频图像编辑任务类型。在最新发布的图像编辑基准 GEdit-Bench 中,Step1X-Edit 在语义一致性、图像质量与综合得分三项指标上全面领先现有开源模型,比肩 GPT-4o 与 Gemin。PAI-ModelGallery 支持Step1X-Edit一键部署方案。
|
人工智能 算法 网络安全
基于PAI+专属网关+私网连接:构建全链路Deepseek云上私有化部署与模型调用架构
本文介绍了阿里云通过PAI+专属网关+私网连接方案,帮助企业实现DeepSeek-R1模型的私有化部署。方案解决了算力成本高、资源紧张、部署复杂和数据安全等问题,支持全链路零公网暴露及全球低延迟算力网络,最终实现技术可控、成本优化与安全可靠的AI部署路径,满足企业全球化业务需求。
|
机器学习/深度学习 人工智能 自然语言处理
PAI Model Gallery 支持云上一键部署 DeepSeek-V3、DeepSeek-R1 系列模型
DeepSeek 系列模型以其卓越性能在全球范围内备受瞩目,多次评测中表现优异,性能接近甚至超越国际顶尖闭源模型(如OpenAI的GPT-4、Claude-3.5-Sonnet等)。企业用户和开发者可使用 PAI 平台一键部署 DeepSeek 系列模型,实现 DeepSeek 系列模型与现有业务的高效融合。
|
人工智能 调度 芯片
PAI训练服务:云上大模型训练新篇章
本文介绍了通用AI时代下的新训练方法及PAI平台的优化。随着大模型时代的到来,算力需求激增,硬件和网络通信成为瓶颈。PAI平台通过自动容错、3D健康检测等技术确保训练稳定性;通过资源配额、智能调度等提高性价比;并推出PAI-TorchAcc和PAI-ChatLearn两大引擎,分别实现高效训练加速和灵活的对齐训练,显著提升训练性能与效果。这些改进解决了大规模AI训练中的关键问题,提升了效率和稳定性。
|
人工智能 自然语言处理 数据库
云上玩转Qwen3系列之二:PAI-LangStudio搭建联网搜索和RAG增强问答应用
本文详细介绍了如何使用 PAI-LangStudio 和 Qwen3 构建基于 RAG 和联网搜索 的 AI 智能问答应用。该应用通过将 RAG、web search 等技术和阿里最新的推理模型 Qwen3 编排在一个应用流中,为大模型提供了额外的联网搜索和特定领域知识库检索的能力,提升了智能回答的效果,减少了幻觉。开发者可以基于该模板进行灵活扩展和二次开发,以满足特定场景的需求。
|
机器学习/深度学习 人工智能 自然语言处理
【新模型速递】PAI-Model Gallery云上一键部署MiniMax-M1模型
MiniMax公司6月17日推出4560亿参数大模型M1,采用混合专家架构和闪电注意力机制,支持百万级上下文处理,高效的计算特性使其特别适合需要处理长输入和广泛思考的复杂任务。阿里云PAI-ModelGallery现已接入该模型,提供一键部署、API调用等企业级解决方案,简化AI开发流程。
|
人工智能 自然语言处理 运维
【新模型速递】PAI一键云上零门槛部署DeepSeek-V3-0324、Qwen2.5-VL-32B
PAI-Model Gallery 集成国内外 AI 开源社区中优质的预训练模型,涵盖了 LLM、AIGC、CV、NLP 等各个领域,用户可以通过 PAI 以零代码方式实现从训练到部署再到推理的全过程,获得更快、更高效、更便捷的 AI 开发和应用体验。 现阿里云PAI-Model Gallery已同步接入DeepSeek-V3-0324、Qwen2.5-VL-32B-Instruct两大新模型,提供企业级部署方案。
|
机器学习/深度学习 人工智能 自然语言处理
云上一键部署通义千问 QwQ-32B 模型,阿里云 PAI 最佳实践
3月6日阿里云发布并开源了全新推理模型通义千问 QwQ-32B,在一系列权威基准测试中,千问QwQ-32B模型表现异常出色,几乎完全超越了OpenAI-o1-mini,性能比肩Deepseek-R1,且部署成本大幅降低。并集成了与智能体 Agent 相关的能力,够在使用工具的同时进行批判性思考,并根据环境反馈调整推理过程。阿里云人工智能平台 PAI-Model Gallery 现已经支持一键部署 QwQ-32B,本实践带您部署体验专属 QwQ-32B模型服务。

热门文章

最新文章

相关产品

  • 人工智能平台 PAI