Linux 中的机器学习:Whisper——自动语音识别系统

简介: Linux 中的机器学习:Whisper——自动语音识别系统

Whisper 是一种自动语音识别 (ASR) 系统,使用从网络收集的 680000 小时多语言和多任务数据进行训练,Whisper 由深度学习和神经网络提供支持,是一种基于 PyTorch 构建的自然语言处理系统,这是免费的开源软件。

安装Whisper

我们用 Ubuntu 22.04 LTS 测试了 Whisper,为避免污染您的系统,我们建议使用 Anaconda 或 Miniconda 安装 Whisper。

使用 wget 下载并安装 Anaconda。

$ wget https://repo.anaconda.com/archive/Anaconda3-2022.10-Linux-x86_64.sh

下载中的截图:

运行shell脚本:

$ bash Anaconda3-2022.10-Linux-x86_64.sh

接受 Anaconda 的许可证,然后通过运行 conda init 来初始化 Anaconda3,要使更改生效,请关闭并重新打开当前的 shell。

创建一个 conda 环境,并激活它。

$ conda create --name whisper
$ conda activate whisper

现在我们准备好使用 pip 安装 Whisper,pip 是 Python 的包管理器。

$ pip install -U openai-whisper

这是运行该命令的输出。

Successfully built openai-whisper
Installing collected packages: tokenizers, huggingface-hub, transformers, openai-whisper
Successfully installed huggingface-hub-0.12.1 openai-whisper-20230124 tokenizers-0.13.2 transformers-4.26.1

运行whisper

whisper 是从命令行运行的,项目中没有花哨的图形用户界面。

该软件带有一系列不同大小的预训练模型,可用于检查 Whisper 的缩放属性:

  • tiny.en
  • tiny
  • base.en
  • base
  • small.en
  • small
  • medium.en
  • medium
  • large-v1
  • large-v2
  • large

我们可以使用在 MP3 文件(也支持 FLAC 和 WAV)上使用媒体模型试用该软件,第一次使用模型时,会下载该模型。

如果我们不指定带有标志的语言,--language软件会自动检测使用最多前 30 秒的语言。我们可以告诉软件语言,避免自动检测的开销,一共支持 100 多种语言。

我们想要使用媒体模型转录 audio.mp3 文件,我们会告诉软件这个文件是英语语言。

$ whisper audio.mp3 --model medium --language English

下图显示正在进行的转录。

我们验证此转录正在使用我们的 GPU。

你可以看到我们的 GPU 有 8GB 的VRAM,请注意,大型模型无法在此 GPU 上运行,因为它需要超过 8GB 的VRAM。

有大量可用的选项,比如$ whisper --help

总结

Whisper 还是蛮不错的,从我们的测试来看,转录的准确性非常接近人类水平的稳健性和准确性。

Whisper 没有图形界面,也不能录制音频。它只能获取现有的音频文件和输出文本文件,Whisper 已经积累了超过 25000 个 GitHub 星,还是非常受欢迎的。

代码仓库地址:https://github.com/openai/whisper

相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
目录
相关文章
|
1月前
|
Ubuntu Linux
计算机基础知识:linux系统怎么安装?
在虚拟机软件中创建一个新的虚拟机,并选择相应操作系统类型和硬盘空间大小等参数。将下载的 ISO 镜像文件加载到虚拟机中。启动虚拟机,进入安装界面,并按照步骤进行安装。安装完成后,可以在虚拟机中使用 Linux 系统。
|
1月前
|
存储 Ubuntu Linux
「正点原子Linux连载」第二章Ubuntu系统入门
在图2.8.2.4中,我们使用命令umount卸载了U盘,卸载以后当我们再去访问文件夹/mnt/tmp的时候发现里面没有任何文件了,说明我们卸载成功了。
|
1月前
|
缓存 监控 Linux
Linux系统清理缓存(buff/cache)的有效方法。
总结而言,在大多数情形下你不必担心Linux中buffer与cache占用过多内存在影响到其他程序运行;因为当程序请求更多内存在没有足够可用资源时,Linux会自行调整其占有量。只有当你明确知道当前环境与需求并希望立即回收这部分资源给即将运行重负载任务之前才考虑上述方法去主动干预。
687 10
|
1月前
|
安全 Linux 数据安全/隐私保护
为Linux系统的普通账户授予sudo访问权限的过程
完成上述步骤后,你提升的用户就能够使用 `sudo`命令来执行管理员级别的操作,而无需切换到root用户。这是一种更加安全和便捷的权限管理方式,因为它能够留下完整的权限使用记录,并以最小权限的方式工作。需要注意的是,随意授予sudo权限可能会使系统暴露在风险之中,尤其是在用户不了解其所执行命令可能带来的后果的情况下。所以在配置sudo权限时,必须谨慎行事。
297 0
|
1月前
|
Ubuntu Linux 开发者
国产 Linux 发行版再添新成员,CutefishOS 系统简单体验
当然,系统生态构建过程并不简单,不过为了帮助国产操作系统优化生态圈,部分企业也开始用国产操作系统替代 Windows,我们相信肯定会有越来越多的精品软件登录 Linux 平台。
103 0
|
1月前
|
Ubuntu 安全 Linux
Linux系统入门指南:从零开始学习Linux
Shell脚本是一种强大的自动化工具,可以帮助您简化重复的任务或创建复杂的脚本程序。了解Shell脚本的基本语法和常用命令,以及编写和运行Shell脚本的步骤,将使您更高效地处理日常任务。
192 0
|
1月前
|
Ubuntu Linux 图形学
Linux学习之Linux桌面系统有哪些?
Cinnamon:与MATE类似,Cinnamon 拥有 GNOME 和 Unity 等其它桌面环境所没有的种种功能,是高度可定制的桌面环境,不需要任何外部插件、窗口组件和调整工具来定制桌面。
110 0
|
1月前
|
Ubuntu 安全 Linux
十款常用Linux系统介绍
本文不是什么大盘点。市面上有好几百款发行版,每款发行版在某个方面都与众不同。不可能在此全部罗列,本文只罗列了十款最常见的Linux发行版(世界上只有两种人,一种是懂二进制的,另一种是不懂二进制的)。请宣传Linux的魅力或威力。
|
1月前
|
Ubuntu 安全 Linux
linux系统|Ubuntu 18.10 如期正式发布,新面孔新技术都来了
微软公司也终于沉不住气要在linux开源系统开疆扩土了。mscode这样的工具的确好用,虽然差第一名那么一点儿,但是最老版的公司出版的软件的确很是让人动心!
|
1月前
|
Ubuntu Linux 数据安全/隐私保护
Win10安装Linux子系统教程!如何在Win10系统中安装Ubuntu!
登录系统后,输入cd /返回上一级,然后再输入“ls”查看一下系统文件目录,看看对不对!