讯飞与腾讯云：Android 语音识别服务对比选择

一、讯飞语音识别

1.1 讯飞语音识别介绍

1.1.1 功能特点

1.1.2 优势

1.2 接入流程

1.2.1 注册账号并创建应用

1.2.2 下载SDK等相关资料

1.2.3 导入SDK

1.2.4 添加用户权限

1.2.5 初始化讯飞SDK

1.2.6 初始化语音识别对象

1.2.7 显示结果

二、腾讯云语音识别

2.1 腾讯云语音识别介绍

2.1.1 功能特点

2.1.2 优势

2.2 接入流程

2.2.1 注册腾讯云账号

2.2.2 获取相关的凭证信息

2.2.3 下载SDK等相关资料

2.2.4 导入SDK和添加其他依赖

2.2.5 添加用户权限

2.2.6 初始化腾讯云SDK

2.2.7 设置识别结果回调

2.2.8 录音文件直接识别

2.2.9 录音并识别语音

2.2.10 recognize 介绍

三、选择建议

一、讯飞语音识别

1.1 讯飞语音识别介绍

1.1.1 功能特点

1.提供全面的语音识别功能，包括实时语音识别和离线语音识别。

2.支持多种语言识别，满足不同语种用户的需求。(普通话/英语免费，其他语音可试用半年。试用到期后需单独购买，价格为：2万/个/年)

3.提供丰富的SDK和API接口，方便开发者集成和使用。

1.1.2 优势

1.讯飞在语音识别领域有较高的知名度和市场占有率。

2.提供了详细的开发文档和示例代码，方便开发者快速上手。

3.支持定制化开发，可以根据用户需求进行个性化定制。

1.2 接入流程

1.2.1 注册账号并创建应用

注册讯飞开放平台账号，创建应用并获得AppID。

1.2.2 下载SDK等相关资料

直接下载SDK，SDK中包含简易可运行的Demo。

1.2.3 导入SDK

将在官网下载的Android SDK 压缩包中libs目录下所有子文件拷贝至Android工程的libs目录下。

sdk下文件夹main/assets/，自带UI页面(iflytek文件夹)和相关其他服务资源文件(语法文件、音频示例、词表)，使用自带UI接口时，可以将assets/iflytek文件拷贝到项目中；我这用到是自己写的界面所以仅导入了libs目录下文件。

1.2.4 添加用户权限

在工程 AndroidManifest.xml 文件中添加如下权限，在实际项目中还需要动态申请权限。

<!--连接网络权限，用于执行云端语音能力 -->
<uses-permission android:name="android.permission.INTERNET"/>
<!--获取手机录音机使用权限，听写、识别、语义理解需要用到此权限 -->
<uses-permission android:name="android.permission.RECORD_AUDIO"/>
<!--读取网络信息状态 -->
<uses-permission android:name="android.permission.ACCESS_NETWORK_STATE"/>
<!--获取当前wifi状态 -->
<uses-permission android:name="android.permission.ACCESS_WIFI_STATE"/>
<!--允许程序改变网络连接状态 -->
<uses-permission android:name="android.permission.CHANGE_NETWORK_STATE"/>
<!--读取手机信息权限 -->
<uses-permission android:name="android.permission.READ_PHONE_STATE"/>
<!--读取联系人权限，上传联系人需要用到此权限 -->
<uses-permission android:name="android.permission.READ_CONTACTS"/>
<!--外存储写权限，构建语法需要用到此权限 -->
<uses-permission android:name="android.permission.WRITE_EXTERNAL_STORAGE"/>
<!--外存储读权限，构建语法需要用到此权限 -->
<uses-permission android:name="android.permission.READ_EXTERNAL_STORAGE"/>
<!--配置权限，用来记录应用配置信息 -->
<uses-permission android:name="android.permission.WRITE_SETTINGS"/>
<!--手机定位信息，用来为语义等功能提供定位，提供更精准的服务-->
<!--定位信息是敏感信息，可通过Setting.setLocationEnable(false)关闭定位请求 -->
<uses-permission android:name="android.permission.ACCESS_FINE_LOCATION"/>
<!--如需使用人脸识别，还要添加：摄像头权限，拍照需要用到 -->
<uses-permission android:name="android.permission.CAMERA" />

注意：如需在打包或者生成APK的时候进行混淆，请在proguard.cfg中添加如下代码：

-keep class com.iflytek.**{*;}
-keepattributes Signature

1.2.5 初始化讯飞SDK

初始化即创建语音配置对象，只有初始化后才可以使用MSC的各项服务。建议将初始化放在程序入口处（如Application、Activity的onCreate方法），初始化代码如下：

// 将“12345678”替换成您申请的APPID，申请地址：http://www.xfyun.cn
// 请勿在“=”与appid之间添加任何空字符或者转义符
SpeechUtility.createUtility(context, SpeechConstant.APPID +"=12345678");

// public class SpeechConstant {
//     public static final java.lang.String APPID = "appid";
//     ......
// }

1.2.6 初始化语音识别对象

    private void initSpeech() {
        // 使用SpeechRecognizer对象，可根据回调消息自定义界面；
        mIat = SpeechRecognizer.createRecognizer(this, mInitListener);
        setParam();
    }

    /**
     * 初始化监听器。
     */
    private InitListener mInitListener = code -> {
        Log.d(TAG, "SpeechRecognizer init() code = " + code);
        if (code != ErrorCode.SUCCESS) {
            //showTip("初始化失败，错误码：" + code + ",请点击网址https://www.xfyun.cn/document/error-code查询解决方案");
        }
    };

    /**
     * 参数设置
     *
     * @return
     */
    public void setParam() {
        if (mIat != null) {
            // 清空参数
            mIat.setParameter(SpeechConstant.PARAMS, null);
            // 设置听写引擎，此处engineType为“cloud”
            mIat.setParameter( SpeechConstant.ENGINE_TYPE, engineType );
            //设置返回结果格式，目前支持json,xml以及plain 三种格式，其中plain为纯听写文本内容
            mIat.setParameter(SpeechConstant.RESULT_TYPE, "json");
            // 设置语言(目前普通话，可切换成英文)
            mIat.setParameter(SpeechConstant.LANGUAGE, "zh_cn");
            // 设置语言区域
            mIat.setParameter(SpeechConstant.ACCENT, "mandarin");

            // 设置语音前端点:静音超时时间，即用户多长时间不说话则当做超时处理
            //取值范围{1000～10000}
            mIat.setParameter(SpeechConstant.VAD_BOS, "10000");

            // 设置语音后端点:后端点静音检测时间，即用户停止说话多长时间内即认为不再输入， 自动停止录音
            //取值范围{1000～10000}
            mIat.setParameter(SpeechConstant.VAD_EOS, "1000");

            // 设置标点符号,设置为"0"返回结果无标点,设置为"1"返回结果有标点
            mIat.setParameter(SpeechConstant.ASR_PTT, "0");

            // 设置音频保存路径，保存音频格式支持pcm、wav.
            mIat.setParameter(SpeechConstant.AUDIO_FORMAT, "wav");
            mIat.setParameter(SpeechConstant.ASR_AUDIO_PATH,
                    getExternalFilesDir("msc").getAbsolutePath() + "/iat.wav");
        }
    }

1.2.7 开始录音

    public void startListen() {
        buffer.setLength(0);
        mIatResults.clear();
        int ret = mIat.startListening(mRecognizerListener);
        if (ret != ErrorCode.SUCCESS) {
            Log.d(TAG, "听写失败,错误码：" + ret + ",请点击网址https://www.xfyun.cn/document/error-code查询解决方案");
        } else {
            Log.d(TAG, "开始说话");
            if (!isSoundRecording){
                isSoundRecording = true;
                runOnUiThread(() -> {
                    binding.llSoundRecording.setVisibility(View.VISIBLE);
                    binding.ivStopSoundRecording.setVisibility(View.VISIBLE);
                    if (animationDrawable != null) {
                        animationDrawable.start();
                    }
                });
            }

        }
    }
    /**
     * 听写监听器。
     */
    private RecognizerListener mRecognizerListener = new RecognizerListener() {

        @Override
        public void onBeginOfSpeech() {
            // 此回调表示：sdk内部录音机已经准备好了，用户可以开始语音输入
            Log.d(TAG, "RecognizerListener.onEvent：sdk内部录音机已经准备好了，用户可以开始语音输入");
        }

        @Override
        public void onError(SpeechError error) {
            // Tips：
            // 错误码：10118(您没有说话)，可能是录音机权限被禁，需要提示用户打开应用的录音权限。
            Log.d(TAG, "RecognizerListener.onError " + error.getPlainDescription(true));

        }

        @Override
        public void onEndOfSpeech() {
            // 此回调表示：检测到了语音的尾端点，已经进入识别过程，不再接受语音输入
            Log.d(TAG, "RecognizerListener.onEndOfSpeech ");

        }

        @Override
        public void onResult(RecognizerResult recognizerResult, boolean b) {
            Log.d(TAG, "RecognizerListener.onResult 结束" + recognizerResult.getResultString());
            Log.d(TAG, results.getResultString());
            if (isLast) {
                Log.d(TAG, "onResult 结束");
            }
            //设置返回结果格式，目前支持json,xml以及plain 三种格式，其中plain为纯听写文本内容
            //mIat.setParameter(SpeechConstant.RESULT_TYPE, "json");
            //在初始化的时候我们设置的事json，所以处理json就可以了。
            if (resultType.equals("json")) {
                printResult(results);
                return;
            }
//            if (resultType.equals("plain")) {
//                buffer.append(results.getResultString());
//                mResultText.setText(buffer.toString());
//                mResultText.setSelection(mResultText.length());
//            }
        }


        @Override
        public void onVolumeChanged(int volume, byte[] data) {
            Log.d(TAG, "RecognizerListener.onVolumeChanged");
        }

        @Override
        public void onEvent(int eventType, int arg1, int arg2, Bundle obj) {
            Log.d(TAG, "RecognizerListener.onEvent" + eventType);
        }
    };

1.2.7 显示结果

拿到结果，那后面还不是你说了算

    private HashMap<String, String> mIatResults = new LinkedHashMap<>(); 
   /**
     * 显示结果
     */
    private void printResult(RecognizerResult results) {
        String text = JsonParser.parseIatResult(results.getResultString());
        String sn = null;
        // 读取json结果中的sn字段
        try {
            JSONObject resultJson = new JSONObject(results.getResultString());
            sn = resultJson.optString("sn");
        } catch (JSONException e) {
            e.printStackTrace();
        }

        mIatResults.put(sn, text);

        StringBuffer resultBuffer = new StringBuffer();
        for (String key : mIatResults.keySet()) {
            resultBuffer.append(mIatResults.get(key));
        }
        mResultText.setText(resultBuffer.toString());
        mResultText.setSelection(mResultText.length());
    }

讯飞错误码：错误码查询 - 讯飞

讯飞官方文档：语音听写 Android SDK 文档 | 讯飞

二、腾讯云语音识别

2.1 腾讯云语音识别介绍

2.1.1 功能特点

腾讯云语音识别（ASR）基于深度学习技术，具备较高的语音识别准确性。

提供实时语音识别和离线语音识别两种类型，满足不同场景需求。

支持多种语种和方言识别，如中文、英文、粤语等。

2.1.2 优势

腾讯云作为国内领先的云服务提供商，拥有强大的技术实力和丰富的应用场景。

提供了丰富的语音识别和语音合成产品，可以满足开发者多样化的需求。

提供了可视化控制台和详尽的API文档，方便开发者进行配置和管理。