C# 10分钟完成百度语音技术(语音识别与合成)——入门篇

简介: C# 10分钟完成百度语音技术(语音识别与合成)——入门篇

今天我们来盘一盘语音识别与合成。

PS:仅供了解参考,如需进一步了解请继续研究。

我们现在就基于百度Ai开放平台进行语音技术的相关操作,demo使用的是C#控制台应用程序。

前面的套路还是一样的:


 

  1. 注册百度账号api,创建自己的应用;
  2. 创建vs控制台应用程序,引入动态链接库;
  3. 编写代码调试,效果图查看;
  • 语音识别
  • 语音合成
  • 实时语音识别
  • 音频文件转写
  • 语音模型训练
  1. 总结。

 

1、创建百度AI语音技术应用

  在百度AI开放平台中,登录自己的百度账号,点击“语音识别”服务,选择“创建应用”,填好应用名称,选择应用类型,填好应用描述,这样就创建好了“语音识别”服务。

具体不废话,不知道的小伙伴可以移步看这里:C# 10分钟完成百度人脸识别——入门篇

创建完成后会生成APPID、APP Key、Secret Key,这些是关键内容,后面要用。

 

2、创建VS控制台应用程序,引入动态链接库

首先我们创建一个VS控制台应用程序,这里就不详细说明。

然后引入百度Baidu.AI动态链接库,步骤如下,小编使用2017,所以直接在NuGet中搜索Baidu.AI安装即可。

安装语音识别 C# SDK

C# SDK 现已开源! https://github.com/Baidu-AIP/dotnet-sdk

** 支持平台:.Net Framework 3.5 4.0 4.5, .Net Core 2.0 **

方法一:使用Nuget管理依赖 (推荐)

在NuGet中搜索 Baidu.AI,安装最新版即可。

packet地址 https://www.nuget.org/packages/Baidu.AI/

方法二:下载安装

语音识别 C# SDK目录结构

Baidu.Aip
    ├── net35
    │   ├── AipSdk.dll             // 百度AI服务 windows 动态库
    │   ├── AipSdk.xml             // 注释文件
    │   └── Newtonsoft.Json.dll    // 第三方依赖
    ├── net40
    ├── net45
    └── netstandard2.0
        ├── AipSdk.deps.json
        └── AipSdk.dll

如果需要在 Unity 平台使用,可引用工程源码自行编译。

安装

1.在官方网站下载C# SDK压缩工具包。

2.解压后,将 AipSdk.dllNewtonsoft.Json.dll 中添加为引用。


 

3、编写代码调试,效果图查看

  创建一个空文件夹,命名为Image,存一个音频文件,做调试,后面语音合成的文件也在这里。

在Program.cs中编写代码,代码编写如下,可以直接拷贝进行调试。

我们这里只讲述语音识别和语音合成,其他的内容可以在官网进行编写:https://ai.baidu.com/docs#/ASR-Online-Csharp-SDK/top

语音识别:

using System;
using System.Collections.Generic;
using System.IO;
using System.Linq;
using System.Text;
using System.Threading.Tasks;
namespace Voice
{
    class Program
    {
        static void Main(string[] args)
        {
            // 设置APPID/AK/SK
            var APP_ID = "16938141";
            var API_KEY = "8y2pB5HLrLD5Zu7aaQV3ce0g";
            var SECRET_KEY = "5tDp3opvpIdEnlXBTOWn9W0O7CdhRNYu";
            //语音识别
            var client = new Baidu.Aip.Speech.Asr(APP_ID, API_KEY, SECRET_KEY);
            client.Timeout = 60000;  // 修改超时时间
            var data = File.ReadAllBytes("E:\\Work Demo\\语音技术\\Voice\\Voice\\Image\\16k.wav");
            // 可选参数
            var options = new Dictionary<string, object>
             {
                {"dev_pid", 1536}  //语音模型1536代表普通话,其他请查看官方文档
             };
            client.Timeout = 120000; // 若语音较长,建议设置更大的超时时间. ms
            var result = client.Recognize(data, "wav", 16000, options);
            Console.Write(result);
            ////语音合成
            //var _ttsClient = new Baidu.Aip.Speech.Tts(API_KEY, SECRET_KEY);
            //_ttsClient.Timeout = 60000;  // 修改超时时间
            //// 可选参数
            //var option = new Dictionary<string, object>()
            //            {
            //                {"spd", 5}, // 语速
            //                {"vol", 7}, // 音量
            //                {"per", 4}  // 发音人,4:情感度丫丫童声
            //            };
            //var result = _ttsClient.Synthesis("今天天气不错,适合嗮太阳", option);
            //if (result.ErrorCode == 0)  // 或 result.Success
            //{
            //    File.WriteAllBytes("E:\\Work Demo\\语音技术\\Voice\\Voice\\Image\\aaa.mp3", result.Data);
            //}
        }
    }
}

我们查看一下识别出来的语音是什么

 

 

这个就是我准备的语音,识别成功。

格式支持:pcm(不压缩)、wav(不压缩,pcm编码)、amr(压缩格式)。推荐pcm 采样率 :16000 固定值。 编码:16bit 位深的单声道。

百度服务端会将非pcm格式,转为pcm格式,因此使用wav、amr会有额外的转换耗时。

音频文件格式转换请参见文档【语音识别小工具\音频文件转码】

更多内容详见官网:https://ai.baidu.com/docs#/ASR-API/top

 


 

语音合成:

  合成文本长度必须小于1024字节,如果本文长度较长,可以采用多次请求的方式。文本长度不可超过限制

详见官网:https://ai.baidu.com/docs#/TTS-Online-Csharp-SDK/top

using System;
using System.Collections.Generic;
using System.IO;
using System.Linq;
using System.Text;
using System.Threading.Tasks;
namespace Voice
{
    class Program
    {
        static void Main(string[] args)
        {
            // 设置APPID/AK/SK
            var APP_ID = "16938141";
            var API_KEY = "8y2pB5HLrLD5Zu7aaQV3ce0g";
            var SECRET_KEY = "5tDp3opvpIdEnlXBTOWn9W0O7CdhRNYu";
            ////语音识别
            //var client = new Baidu.Aip.Speech.Asr(APP_ID, API_KEY, SECRET_KEY);
            //client.Timeout = 60000;  // 修改超时时间
            //var data = File.ReadAllBytes("E:\\Work Demo\\语音技术\\Voice\\Voice\\Image\\16k.wav");
            //// 可选参数
            //var options = new Dictionary<string, object>
            // {
            //    {"dev_pid", 1536}  //语音模型1536代表普通话,其他请查看官方文档
            // };
            //client.Timeout = 120000; // 若语音较长,建议设置更大的超时时间. ms
            //var result = client.Recognize(data, "wav", 16000, options);
            //Console.Write(result);
            //语音合成
            var _ttsClient = new Baidu.Aip.Speech.Tts(API_KEY, SECRET_KEY);
            _ttsClient.Timeout = 60000;  // 修改超时时间
            // 可选参数
            var option = new Dictionary<string, object>()
                        {
                            {"spd", 5}, // 语速
                            {"vol", 7}, // 音量
                            {"per", 4}  // 发音人,4:情感度丫丫童声
                        };
            var result = _ttsClient.Synthesis("听说关注博主不迷路", option);
            if (result.ErrorCode == 0)  // 或 result.Success
            {
                File.WriteAllBytes("E:\\Work Demo\\语音技术\\Voice\\Voice\\Image\\aaa.mp3", result.Data);
            }
        }
    }
}

运行后查看效果,如下:

 

这样就合成成功了。


 

4、总结

 简单的入门就到这里,后面的实时语音识别、音频文件转写、建立模型进行语音训练就需要靠大家了。

转载请注明出处,谢谢!

原文地址:https://www.cnblogs.com/xiongze520/p/11301882.html

拜拜,下次再见咯!

相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
5月前
|
人工智能 运维 算法
基于 C# 深度优先搜索算法的局域网集中管理软件技术剖析
现代化办公环境中,局域网集中管理软件是保障企业网络高效运行、实现资源合理分配以及强化信息安全管控的核心工具。此类软件需应对复杂的网络拓扑结构、海量的设备信息及多样化的用户操作,而数据结构与算法正是支撑其强大功能的基石。本文将深入剖析深度优先搜索(Depth-First Search,DFS)算法,并结合 C# 语言特性,详细阐述其在局域网集中管理软件中的应用与实现。
115 3
|
11月前
|
开发框架 .NET API
RESTful API 设计与实现:C# 开发者的一分钟入门
【10月更文挑战第5天】本文从零开始,介绍了如何使用 C# 和 ASP.NET Core 设计并实现一个简单的 RESTful API。首先解释了 RESTful API 的概念及其核心原则,然后详细说明了设计 RESTful API 的关键步骤,包括资源识别、URI 设计、HTTP 方法选择、状态码使用和错误处理。最后,通过一个用户管理 API 的示例,演示了如何创建项目、定义模型、实现控制器及运行测试,帮助读者掌握 RESTful API 的开发技巧。
391 7
|
6月前
|
缓存 监控 算法
基于 C# 网络套接字算法的局域网实时监控技术探究
在数字化办公与网络安全需求增长的背景下,局域网实时监控成为企业管理和安全防护的关键。本文介绍C#网络套接字算法在局域网实时监控中的应用,涵盖套接字创建、绑定监听、连接建立和数据传输等操作,并通过代码示例展示其实现方式。服务端和客户端通过套接字进行屏幕截图等数据的实时传输,保障网络稳定与信息安全。同时,文章探讨了算法的优缺点及优化方向,如异步编程、数据压缩与缓存、错误处理与重传机制,以提升系统性能。
123 2
|
5月前
|
SQL 小程序 API
如何运用C#.NET技术快速开发一套掌上医院系统?
本方案基于C#.NET技术快速构建掌上医院系统,结合模块化开发理念与医院信息化需求。核心功能涵盖用户端的预约挂号、在线问诊、报告查询等,以及管理端的排班管理和数据统计。采用.NET Core Web API与uni-app实现前后端分离,支持跨平台小程序开发。数据库选用SQL Server 2012,并通过读写分离与索引优化提升性能。部署方案包括Windows Server与负载均衡设计,确保高可用性。同时针对API差异、数据库老化及高并发等问题制定应对措施,保障系统稳定运行。推荐使用Postman、Redgate等工具辅助开发,提升效率与质量。
177 0
|
8月前
|
Web App开发 Linux C#
C# 网页截图全攻略:三种技术与 Chrome 路径查找指南
本文主要介绍了在 C# 中实现网页截图的几种技术及相关要点。涵盖了 PuppeteerSharp、Selenium 和 HtmlToImage 三种方式,分别阐述了它们的安装步骤及核心代码。同时,针对在 C# 中寻找 Windows 上 chrome.exe 路径这一问题,分析了未安装 Google Chrome 和已安装两种情况下的查找原因,并给出了相关参考链接,还列举了一系列与 C# 使用 Selenium、获取 chrome.exe 路径以及在 Linux 上部署相关的参考资料。
277 11
|
9月前
|
开发框架 算法 .NET
C#/.NET/.NET Core技术前沿周刊 | 第 15 期(2024年11.25-11.30)
C#/.NET/.NET Core技术前沿周刊 | 第 15 期(2024年11.25-11.30)
122 6
|
9月前
|
开发框架 Cloud Native .NET
C#/.NET/.NET Core技术前沿周刊 | 第 16 期(2024年12.01-12.08)
C#/.NET/.NET Core技术前沿周刊 | 第 16 期(2024年12.01-12.08)
120 6
|
9月前
|
程序员 C# 数据库
C# 比较对象新思路,利用反射技术打造更灵活的比较工具
中途接手的项目,碰到需要在更新对象信息时比较并记录差异的需求,最变态的还有附加要求,怎么办?有没有既能满足需求又能对项目影响最小的方法呢?分享这个我封装的方法,一个利用反射技术打造的更灵活的比较工具
125 5
|
10月前
|
人工智能 开发框架 前端开发
C#/.NET/.NET Core技术前沿周刊 | 第 12 期(2024年11.01-11.10)
C#/.NET/.NET Core技术前沿周刊 | 第 12 期(2024年11.01-11.10)
115 3
|
10月前
|
机器学习/深度学习 人工智能 自然语言处理
医疗行业的语音识别技术解析:AI多模态能力平台的应用与架构
AI多模态能力平台通过语音识别技术,实现实时转录医患对话,自动生成结构化数据,提高医疗效率。平台具备强大的环境降噪、语音分离及自然语言处理能力,支持与医院系统无缝集成,广泛应用于门诊记录、多学科会诊和急诊场景,显著提升工作效率和数据准确性。
732 3