Android 百度语音识别(详细步骤+源码)

本文涉及的产品
公共DNS(含HTTPDNS解析),每月1000万次HTTP解析
云解析 DNS,旗舰版 1个月
全局流量管理 GTM,标准版 1个月
简介: Android 百度语音识别(详细步骤+源码)

前言


因为项目中用到了语音识别的技术,但是项目源码我不能公开,所以,重新写一个简单的集成教程,不喜可不看,不做键盘侠,文明你我他。


效果图

20200609150129519.png

识别结果

20200609150147355.png


最终效果

20200609150205251.png


正文


下面是详细步骤,不漏过任何一个细节,力求让你一步到位


① 创建平台应用


既然使用了百度语音,自然免不了要注册该平台的账号,否则凭什么让你使用,点击百度智能云进入,没有账号的可以先注册账号,注册应该就不用我讲解了吧?这里默认都有账号了,然后登录


2020060910504248.png


然后左侧导航栏点击找到语音技术


2020060910525953.png


然后会进入一个应用总览页面,


20200609105449869.png


然后点击创建应用


20200609105608757.png


20200609105810248.png


立即创建


20200609105910572.png

点击查看应用详情


20200609110028440.png


这几个值都是等下项目中要用的,请注意,最好是复制粘贴,不要手打,上图中有一个下载SDK,点击进入下载页面,第一个就是

20200609110313776.png


点击下载到本地,下载之后是一个压缩文件,解压之后先不用管它,然后在Android Studio里面创建一个项目


② 创建Android项目并配置


20200609110610819.png

20200609110745435.png


这时候你运行到自己的手机上,如果出现Hello World!,就说明你这个项目没有问题。哎呀~不得了啊!你真是一个百年不遇的代码奇才! 继续啊!


File → New → Import Module…

20200609111436352.png


通过上面的步骤,插入一个模块进来


20200609111633541.png

20200609111952951.png


点击OK

20200609112226804.png


很明显,我找到了,你呢?找到了就找到了,说个🔨啊,人格分裂 继续啊,点击Finish 就会在你当前的项目中加入这个模块,与app是平级的。


2020060911230653.png


这里就是在加载模块中的文件了,加载完毕之后,你可以打开settings.gradle,会发现多了一个 ‘:core’,当然这是在工程中加入了这个模块。


20200609112359116.png


还要在你的app里面加入这个才能使用,

加入的方法有两个,


1. 手动选择


2020060911315747.png

2020060911333965.png

20200609113432515.png


点击OK,然后再点击一次OK


20200609113545508.png


模块已经添加进来了,当然这样比较繁琐,还有更简单的办法下面可以自动添加依赖。


2. 自动添加依赖


20200609112826595.png


找到app下面的build.gradle配置文件,在dependencies闭包下,加入

implementation project(path: ':core')


然后右上角点击 Sync 同步到项目中


下面修改core的AndroidManifest.xml文件中的APP_ID、API_KEY、SECRET_KEY,以及添加权限,里面的值修改为之前在平台注册应用生成的值。


  <uses-permission android:name="android.permission.RECORD_AUDIO" />
    <uses-permission android:name="android.permission.ACCESS_NETWORK_STATE" />
    <uses-permission android:name="android.permission.INTERNET" />
    <uses-permission android:name="android.permission.WRITE_EXTERNAL_STORAGE" />
    <!-- 蓝牙录音使用,不需要可以去除 -->
    <uses-permission android:name="android.permission.BROADCAST_STICKY" />
    <uses-permission android:name="android.permission.BLUETOOTH" />
    <uses-permission android:name="android.permission.MODIFY_AUDIO_SETTINGS" />
    <uses-permission android:name="android.permission.BLUETOOTH_ADMIN" />

20200609113941727.png20200609114259847.png


改好之后,请注意,每个人都是不一样,你如果发现你创建的应用的配置的值和我创建的是一模一样的,你马上去百度提BUG,他们的程序员要就要下岗了~

OK,现在配置也完成了,接下来就是使用了。


③ 使用


首先是修改

20200609114721911.png


布局修改的代码如下:


<?xml version="1.0" encoding="utf-8"?>
<LinearLayout xmlns:android="http://schemas.android.com/apk/res/android"
    xmlns:app="http://schemas.android.com/apk/res-auto"
    xmlns:tools="http://schemas.android.com/tools"
    android:orientation="vertical"
    android:gravity="center"
    android:layout_width="match_parent"
    android:layout_height="match_parent"
    tools:context=".MainActivity">
    <TextView
        android:gravity="center"
        android:id="@+id/tv_txt"
        android:padding="20dp"
        android:textColor="#000"
        android:text="识别到的内容"
        android:layout_width="match_parent"
        android:layout_height="wrap_content"/>
    <Button
        android:id="@+id/btn_stop"
        android:layout_width="match_parent"
        android:layout_height="wrap_content"
        android:layout_alignParentBottom="true"
        android:text="停止" />
    <Button
        android:id="@+id/btn_start"
        android:layout_width="match_parent"
        android:layout_height="wrap_content"
        android:layout_alignParentBottom="true"
        android:text="开始" />
</LinearLayout>


说道语音识别自然要用到这个麦克风,这个权限是需要动态申请的。

 /**
     * android 6.0 以上需要动态申请权限
     */
    private void initPermission() {
        String permissions[] = {Manifest.permission.RECORD_AUDIO,
                Manifest.permission.ACCESS_NETWORK_STATE,
                Manifest.permission.INTERNET,
                Manifest.permission.WRITE_EXTERNAL_STORAGE
        };
        ArrayList<String> toApplyList = new ArrayList<String>();
        for (String perm : permissions) {
            if (PackageManager.PERMISSION_GRANTED != ContextCompat.checkSelfPermission(this, perm)) {
                toApplyList.add(perm);
            }
        }
        String tmpList[] = new String[toApplyList.size()];
        if (!toApplyList.isEmpty()) {
            ActivityCompat.requestPermissions(this, toApplyList.toArray(tmpList), 123);
        }
    }
    /**
     * 权限申请回调,可以作进一步处理
     * @param requestCode
     * @param permissions
     * @param grantResults
     */
    @Override
    public void onRequestPermissionsResult(int requestCode, String[] permissions, int[] grantResults) {
        // 此处为android 6.0以上动态授权的回调,用户自行实现。
    }


得到权限之后就可以进行下一步了,首先是初始化控件以及语音是被的核心SDK

  protected TextView txtResult;//识别结果
    protected Button startBtn;//开始识别  一直不说话会自动停止,需要再次打开
    protected Button stopBtn;//停止识别
    private EventManager asr;//语音识别核心库


  /**
     * 初始化控件
     */
    private void initView() {
        txtResult = (TextView) findViewById(R.id.tv_txt);
        startBtn = (Button) findViewById(R.id.btn_start);
        stopBtn = (Button) findViewById(R.id.btn_stop);
        startBtn.setOnClickListener(new View.OnClickListener() {//开始
            @Override
            public void onClick(View v) {
                asr.send(SpeechConstant.ASR_START, "{}", null, 0, 0);
            }
        });
        stopBtn.setOnClickListener(new View.OnClickListener() {//停止
            @Override
            public void onClick(View v) {
                asr.send(SpeechConstant.ASR_STOP, "{}", null, 0, 0);
            }
        });
    }


在onCreate方法中调用


20200609142449392.png


  @Override
    protected void onCreate(Bundle savedInstanceState) {
        super.onCreate(savedInstanceState);
        setContentView(R.layout.activity_main);
        initView();
        initPermission();
        //初始化EventManager对象
        asr = EventManagerFactory.create(this, "asr");
        //注册自己的输出事件类
        asr.registerListener(this); //  EventListener 中 onEvent方法
    }


同时还需要实现EventListener,注意到这个实现的是百度的,不是自带的。


20200609142627100.png


实现之后还需要一个回调方法,如下:


  /**
     * 自定义输出事件类 EventListener 回调方法
     */
    @Override
    public void onEvent(String name, String params, byte[] data, int offset, int length) {
        if (name.equals(SpeechConstant.CALLBACK_EVENT_ASR_PARTIAL)) {
            // 识别相关的结果都在这里
            if (params == null || params.isEmpty()) {
                return;
            }
            if (params.contains("\"final_result\"")) {
                // 一句话的最终识别结果
                txtResult.setText(params);
            } 
        }
    }


最后就是在onDestroy里面关闭和处理

  @Override
    protected void onDestroy() {
        super.onDestroy();
        //发送取消事件
        asr.send(SpeechConstant.ASR_CANCEL, "{}", null, 0, 0);
        //退出事件管理器
        // 必须与registerListener成对出现,否则可能造成内存泄露
        asr.unregisterListener(this);
    }


可以运行了


20200609143735400.png


点击开始,然后说 “你好”,识别出结果


20200609143809684.png


可以看到,识别的结果还是蛮精准的,但是我们要的数据就只有那两个字而已,所以要进行数据的解析了


④ JSON数据解析


通过刚才代码的中大日志打印拿到JSON字符串,将这个字符串转成实体bean.


20200609144134189.png


转出来的实体bean, 命名为ASRresponse,代码如下:

package com.llw.asrdemo;
import java.util.List;
public class ASRresponse {
    /**
     * results_recognition : ["你好,"]
     * result_type : final_result
     * best_result : 你好,
     * origin_result : {"asr_align_begin":80,"asr_align_end":130,"corpus_no":6835867007181645805,"err_no":0,"raf":133,"result":{"word":["你好,"]},"sn":"82d975e0-6eb4-43ac-a0e7-850bb149f28e"}
     * error : 0
     */
    private String result_type;
    private String best_result;
    private OriginResultBean origin_result;
    private int error;
    private List<String> results_recognition;
    public String getResult_type() {
        return result_type;
    }
    public void setResult_type(String result_type) {
        this.result_type = result_type;
    }
    public String getBest_result() {
        return best_result;
    }
    public void setBest_result(String best_result) {
        this.best_result = best_result;
    }
    public OriginResultBean getOrigin_result() {
        return origin_result;
    }
    public void setOrigin_result(OriginResultBean origin_result) {
        this.origin_result = origin_result;
    }
    public int getError() {
        return error;
    }
    public void setError(int error) {
        this.error = error;
    }
    public List<String> getResults_recognition() {
        return results_recognition;
    }
    public void setResults_recognition(List<String> results_recognition) {
        this.results_recognition = results_recognition;
    }
    public static class OriginResultBean {
        /**
         * asr_align_begin : 80
         * asr_align_end : 130
         * corpus_no : 6835867007181645805
         * err_no : 0
         * raf : 133
         * result : {"word":["你好,"]}
         * sn : 82d975e0-6eb4-43ac-a0e7-850bb149f28e
         */
        private int asr_align_begin;
        private int asr_align_end;
        private long corpus_no;
        private int err_no;
        private int raf;
        private ResultBean result;
        private String sn;
        public int getAsr_align_begin() {
            return asr_align_begin;
        }
        public void setAsr_align_begin(int asr_align_begin) {
            this.asr_align_begin = asr_align_begin;
        }
        public int getAsr_align_end() {
            return asr_align_end;
        }
        public void setAsr_align_end(int asr_align_end) {
            this.asr_align_end = asr_align_end;
        }
        public long getCorpus_no() {
            return corpus_no;
        }
        public void setCorpus_no(long corpus_no) {
            this.corpus_no = corpus_no;
        }
        public int getErr_no() {
            return err_no;
        }
        public void setErr_no(int err_no) {
            this.err_no = err_no;
        }
        public int getRaf() {
            return raf;
        }
        public void setRaf(int raf) {
            this.raf = raf;
        }
        public ResultBean getResult() {
            return result;
        }
        public void setResult(ResultBean result) {
            this.result = result;
        }
        public String getSn() {
            return sn;
        }
        public void setSn(String sn) {
            this.sn = sn;
        }
        public static class ResultBean {
            private List<String> word;
            public List<String> getWord() {
                return word;
            }
            public void setWord(List<String> word) {
                this.word = word;
            }
        }
    }
}


这里我用GSON来解析JSON数据。

20200609144545601.png


  //GSON
    implementation 'com.squareup.retrofit2:converter-gson:2.4.0'


记得Sync一下

然后回到MainActivity


20200609145405981.png


修改的代码如下:

    Gson gson = new Gson();
        ASRresponse asRresponse = gson.fromJson(params, ASRresponse.class);//数据解析转实体bean
        if(asRresponse == null) return;
        //从日志中,得出Best_result的值才是需要的,但是后面跟了一个中文输入法下的逗号,
        if(asRresponse.getBest_result().contains(",")){//包含逗号  则将逗号替换为空格,这个地方还会问题,还可以进一步做出来,你知道吗?
      txtResult.setText(asRresponse.getBest_result().replace(',',' ').trim());//替换为空格之后,通过trim去掉字符串的首尾空格
        }else {//不包含
      txtResult.setText(asRresponse.getBest_result().trim());
        }


然后再运行一下


20200609145839136.png

OK,搞定了。其实看下来也不难,只不过是你没有找到好一点的文章,你说呢?这里是初学者-Study,山高水长,后会有期~


⑤ 疑难杂症


经过了几次对读者问题解决之后,我打算添加这一环节,非常有必要,当你看完我的博客出现问题之后,请先运行我的源码,源码没有问题的话再和自己的代码取做对比,如果最后你发现不了什么问题。这里要注意的地方有三个:① 真机运行,别用任何虚拟器,虚拟机。② 检查百度智能云上面的应用包名和自己项目的包名是否一致。③ 检查AppID、API Key、Secret Key是否与core模块中的AndroidManifest.xml中的配置对应的上。④ 检查是否领取了免费调试额度。如下图所示,如果你的立即领取为灰色,那么现在则要领取了才能正常调用百度语音识别的SDK。如下图


2020112119032049.png


在我写这篇博客的时候,我创建应用的时候自己就领取了这个免费额度,所以上面的文章中没有提到这一点,在这里补充上去,现在的新用户创建应用时,百度改变了规则,需用开发者手动领取,没有领取的,你自然就调用不了SDK了。综上所述能解决你大部分问题。再加上我的博客基本上无懈可击,可以很负责任的说,我的这个博客绝对比官方文档要详细很多,可以说是手把手教学了,另外有问题也可以私信我,或者评论一下就可以。


这里再补充一个读者解决问题的过程,因为我之前写的时候没有碰到过,不过既然是解决问题的方式之一,而且也有用的话,也就放到文章里面来吧。这是我在评论里看到的;


如果出现Attemp to…的问题,把start那里的第一个Null改成 “{}” 试试;


asr.send(SpeechConstant.ASR_START, "{}", null, 0, 0);


如果出现VAD…的,把minsdk改成21

相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
16天前
|
Dart 开发工具 Android开发
在 Android 系统上搭建 Flutter 环境的具体步骤是什么?
在 Android 系统上搭建 Flutter 环境的具体步骤是什么?
|
2月前
|
开发工具 uml git
AOSP源码下载方法,解决repo sync错误:android-13.0.0_r82
本文分享了下载AOSP源码的方法,包括如何使用repo工具和处理常见的repo sync错误,以及配置Python环境以确保顺利同步特定版本的AOSP代码。
189 0
AOSP源码下载方法,解决repo sync错误:android-13.0.0_r82
|
2月前
|
Java Android开发 芯片
使用Android Studio导入Android源码:基于全志H713 AOSP,方便解决编译、编码问题
本文介绍了如何将基于全志H713芯片的AOSP Android源码导入Android Studio以解决编译和编码问题,通过操作步骤的详细说明,展示了在Android Studio中利用代码提示和补全功能快速定位并修复编译错误的方法。
52 0
使用Android Studio导入Android源码:基于全志H713 AOSP,方便解决编译、编码问题
|
2月前
|
Android开发 iOS开发 C#
Xamarin.Forms:从零开始的快速入门指南——打造你的首个跨平台移动应用,轻松学会用C#和XAML构建iOS与Android通用界面的每一个步骤
【8月更文挑战第31天】Xamarin.Forms 是一个强大的框架,让开发者通过单一共享代码库构建跨平台移动应用,支持 iOS、Android 和 Windows。使用 C# 和 XAML,它简化了多平台开发流程并保持一致的用户体验。本指南通过创建一个简单的 “HelloXamarin” 应用演示了 Xamarin.Forms 的基本功能和工作原理。
56 0
|
2月前
|
开发工具 Android开发 git
全志H713 Android 11 :给AOSP源码,新增一个Product
本文介绍了在全志H713 Android 11平台上新增名为myboard的产品的步骤,包括创建新的device目录、编辑配置文件、新增内核配置、记录差异列表以及编译kernel和Android系统的详细过程。
46 0
|
2月前
|
Ubuntu 开发工具 Android开发
Repo下载、编译AOSP源码:基于Ubuntu 21.04,android-12.1.0_r27
文章记录了作者在Ubuntu 21.04服务器上配置环境、下载并编译基于Android 12.1.0_r27版本的AOSP源码的过程,包括解决编译过程中遇到的问题和错误处理方法。
84 0
|
2月前
|
API 开发工具 Android开发
Android源码下载
Android源码下载
235 0
|
存储 Ubuntu Linux
linphone android sdk 源码下载编译
linphone android sdk 源码下载编译
1128 0
linphone android sdk 源码下载编译
|
Ubuntu Java Linux
Android13源码下载及全编译流程
Android13源码下载及全编译流程
Android13源码下载及全编译流程
|
Android开发
【Binder 机制】分析 Android 内核源码中的 Binder 驱动源码 binder.c ( googlesource 中的 Android 内核源码 | 内核源码下载 )(一)
【Binder 机制】分析 Android 内核源码中的 Binder 驱动源码 binder.c ( googlesource 中的 Android 内核源码 | 内核源码下载 )(一)
176 0
【Binder 机制】分析 Android 内核源码中的 Binder 驱动源码 binder.c ( googlesource 中的 Android 内核源码 | 内核源码下载 )(一)