linux系统中利用QT实现语音识别项目的操作方法

简介: linux系统中利用QT实现语音识别项目的操作方法

     大家好,今天主要和大家分享一下,如何使用linux系统上的语音识别项目的操作方法与实现。

 



第一:语音识别基本简介

     AI音箱对传统音箱主要有两大块的技术区别,一块是语音信号的前处理,包括回声消除、波速成型、音源定位、降噪、去混响、自动语音电平控制这块是偏硬件的控制。还有一块是智 能语音交互,包括语音关键词搜索、本地语音识别、声纹识别、语音合成。

    写上面的这些是让读者了解一下专业AI音箱方案与开发板实现的语音识别的差别在哪里。

    说明语音识别项目的基本操作过程:

1、熟悉百度语音技术账号申请,及简单介绍调用流程。

2、用QT编写示例程序。流程如下,录制音频后,发送调用百度语音识别API接口,识别并返回结果。支持语音控制开发板上的LED控制。

第二:语音识别产品申请账号

     语音识别技术产品,有讯飞,百度等厂家,我们可以购买或者免费试用他们的产品。可以 直接到他们的官网上查看,有使用技术文档。下面我们以百度语音识别技术产品为例子。可以 在浏览器输入搜索“百度语音识别”,就可以找到百度 AI 开放平台。

点击进去就可以看到他的技术文档链接位置。如下图。

或者直接打开https://ai.baidu.com/ai-doc/SPEECH/Ek39uxgre就可以跳转到百度AI开放平台》 帮助文档》语音技术页面。如下图。

记住自己的密钥。请自行完成及创建百度帐号,按照百 度帮助文档里的步骤,领取免费额度及创建中文普通话应用,获取密钥!程序里需要用到自己 的密钥。笔者提供的密钥是百度语音识别例程里的,如果开发次数超了可能就不能使用了。程 序中只需要 API Key 与 Secret Key。注意获取 Access Token 时有效期为 30 天,到期后需要在程 序里重新获取新的 token。

第二:百度语音识别流程及示例

    在百度 AI 帮助文档里可以看见如下重要信息。

   总结:调用流程需要仔细阅读,百度提供了示例 Demo 代码,可以看到里面支持很多种编 程语言编写的 API 请求相关示例 demo 代码。没有直接 C++相关的代码。C 语言是 C++语言的 子集,我们可以直接参考 C 语言编写的例子(请自行查阅及参考百度提供的 C 语言编写的 API 请求相关示例 demo 代码)来编写 Qt 调用语音识别 API。(备注:其他语言编写的例子不在我 们教程范围。)识别的音频格式支持如上,我们可以知道一些重要的信息是支持采样率 16000、 8000 的固定值,16bit 深的单声道,音频长度最长 60 秒。格式支持 wav,恰好正点原子 Linux I.MX6U 开发板系统支持 wav 格式播放及录制。

第三:具体代码实现

    asr 是语音识别功能 demo。

1 #ifndef ASR_H
2 #define ASR_H
3
4 #include <QWidget>
5
6 #include <QNetworkAccessManager>
7 #include <QNetworkReply>
8
9 #include <QJsonDocument>
10 #include <QJsonParseError>
11 #include <QJsonObject>
12 #include <QJsonArray>
13 #include <QHostInfo>
14
15 #include <QFile>
16
17 class Asr : public QWidget
18 {
19 Q_OBJECT
20
21 public:
22 Asr(QWidget *parent = nullptr);
23 ~Asr();
24
25 /* 请求网络 */
26 void requestNetwork(QString, QByteArray);
27
28 /* 获取识别结果 */
29 void getTheResult(QString fileName);
30
31 private:
32 /* 存储获取 tokenUrl 地址 */
33 QString tokenUrl;
34
35 /* 存储 serverapi 地址 */
36 QString serverApiUrl;
37
38 /* 最终需要访问 token 的地址 */
39 QString accessToken;
40
41 /* 获取 token 的接口*/
42 const QString token_org =
"https://aip.baidubce.com/oauth/2.0/token?grant_type=client_credentials
&client_id=%1&client_secret=%2&";
43
44 /* 填写网页上申请的 appkey 如 g_api_key="g8eBUMSokVB1BHGmgxxxxxx" */
45 const QString 8888;
46
47 /* 填写网页上申请的 APP SECRET 如
$secretKey="94dc99566550d87f8fa8ece112xxxxx" */
48 const QString 8888;
49
50 /* 百度服务器 API 接口,发送语音可返回识别结果 */
51 const QString server_api =
"http://vop.baidu.com/server_api?dev_pid=1537&cuid=%1&token=%2";
52
53 /* 网络管理 */
54 QNetworkAccessManager *networkAccessManager;
55
56 QString getJsonValue(QByteArray ba, QString key);
57
58 QFile file;
59
60 private slots:
61
62 /* 准备读取响应返回来的数据 */
63 void readyReadData();
64
65 /* 响应完成处理 */
66 void replyFinished();
67
68 signals:
69 void asrReadyData(QString);
70
71 };
72 #endif // ASR_H

分析:第 45 行,请填写读者自己在网页上申请的 API Key。以防万一示例中的 API Key 过期不可 用! 第 47 行,请填写读者在网页上申请的 Secret Key。以防万一示例中的 Secret Key 过期不可 用

             

 

总结:原理 与原子云 API 接口相似。不过百度语音识别需要通过自己的帐号,指定地址获取访问的 Token 源地址,然后将得到的 Access Token 地址与语音识别服务器地址拼接,发送语音到服务 器,就可以返回识别的结果了。

相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
目录
相关文章
|
26天前
|
缓存 监控 Linux
Linux系统清理缓存(buff/cache)的有效方法。
总结而言,在大多数情形下你不必担心Linux中buffer与cache占用过多内存在影响到其他程序运行;因为当程序请求更多内存在没有足够可用资源时,Linux会自行调整其占有量。只有当你明确知道当前环境与需求并希望立即回收这部分资源给即将运行重负载任务之前才考虑上述方法去主动干预。
368 10
|
30天前
|
安全 Linux 数据安全/隐私保护
为Linux系统的普通账户授予sudo访问权限的过程
完成上述步骤后,你提升的用户就能够使用 `sudo`命令来执行管理员级别的操作,而无需切换到root用户。这是一种更加安全和便捷的权限管理方式,因为它能够留下完整的权限使用记录,并以最小权限的方式工作。需要注意的是,随意授予sudo权限可能会使系统暴露在风险之中,尤其是在用户不了解其所执行命令可能带来的后果的情况下。所以在配置sudo权限时,必须谨慎行事。
214 0
|
1月前
|
Ubuntu Linux 开发者
国产 Linux 发行版再添新成员,CutefishOS 系统简单体验
当然,系统生态构建过程并不简单,不过为了帮助国产操作系统优化生态圈,部分企业也开始用国产操作系统替代 Windows,我们相信肯定会有越来越多的精品软件登录 Linux 平台。
81 0
|
1月前
|
Ubuntu 安全 Linux
Linux系统入门指南:从零开始学习Linux
Shell脚本是一种强大的自动化工具,可以帮助您简化重复的任务或创建复杂的脚本程序。了解Shell脚本的基本语法和常用命令,以及编写和运行Shell脚本的步骤,将使您更高效地处理日常任务。
129 0
|
1月前
|
Ubuntu Linux 图形学
Linux学习之Linux桌面系统有哪些?
Cinnamon:与MATE类似,Cinnamon 拥有 GNOME 和 Unity 等其它桌面环境所没有的种种功能,是高度可定制的桌面环境,不需要任何外部插件、窗口组件和调整工具来定制桌面。
86 0
|
数据安全/隐私保护 C++ 计算机视觉
Qt(C++)开发一款图片防盗用水印制作小工具
文本水印是一种常用的防盗用手段,可以将文本信息嵌入到图片、视频等文件中,用于识别和证明文件的版权归属。在数字化和网络化的时代,大量的原创作品容易被不法分子盗用或侵犯版权,因此加入文本水印成为了保护原创作品和维护知识产权的必要手段。 通常情况下,文本水印可以包含版权声明、制作者姓名、日期、网址等信息,以帮助识别文件的来源和版权归属。同时,为了增强防盗用效果,文本水印通常会采用字体、颜色、角度等多种组合方式,使得水印难以被删除或篡改,有效地降低了盗用意愿和风险。 开发人员可以使用图像处理技术和编程语言实现文本水印的功能,例如使用Qt的QPainter类进行文本绘制操作,将文本信息嵌入到图片中,
408 1
Qt(C++)开发一款图片防盗用水印制作小工具
|
监控 C++ 容器
【qt】MDI多文档界面开发
【qt】MDI多文档界面开发
467 0
|
C++
C++ Qt开发:QUdpSocket网络通信组件
QUdpSocket是Qt网络编程中一个非常有用的组件,它提供了在UDP协议下进行数据发送和接收的能力。通过简单的方法和信号,可以轻松实现基于UDP的网络通信。不过,需要注意的是,UDP协议本身不保证数据的可靠传输,因此在使用QUdpSocket时,可能需要在应用层实现一些机制来保证数据的完整性和顺序,或者选择在适用的场景下使用UDP协议。
627 2

热门文章

最新文章