通信原理课设(gec6818) 007:语音识别

目录

1、去科大讯飞官网下载对应的sdk

2、科大讯飞文件夹的意思

3、配置ARM的录音环境

4、编程实现语音识别


我们的需求是将一个语音文件从客户端传到服务器,因此我们最好是选用tcp
    
现在市面上面常用的语音识别解决方案为:科大讯飞c和百度c++

离线语音识别和在线语音识别有一定区别,以识别“你好”为例:
在线:语音识别可以直接返回“你好”这个字符串    
离线:只能做命令词 --- 根据我的需求写好代号
           如:你好 --- 1001
           最终我们可以拿到这个1001这个id

语音解决方案没有arm的环境,因此我们需要用开发板去录音,将这个录音文件发送给乌班图,由乌班图识别出来之后返回给arm板

1、去科大讯飞官网下载对应的sdk

进入科大讯飞官网 -> 讯飞开放平台 -> 离线命令词识别 -> 免费试用
    -> 下载对应的SDK-> 跳转到对应的sdk下载界面->注意下面三个红色框框的选择(下载sdk可能会提示要实名认证,认证就好了)

2、科大讯飞文件夹的意思

每个人下载的sdk都是不一样的

进入到\samples\asr_offline_sample,可以看到有一个makefile文件,我们在编译的时候直接make就可以了。make会找Makefile去执行,make完成如果没有报错,它会在bin目录里面生成一个asr_offline_sample可执行文件。

由于我们只用x64的库,所以我们用记事本打开makefile,将x86改成x64

在执行的时候要找到这个库  我们需要将这个库弄到 /lib文件夹

 sudo cp lib/x64/libmsc.so /lib

3、配置ARM的录音环境

链接:https://pan.baidu.com/s/1LZ0Lpj9DhqpMzhzYjp0xVg?pwd=scrt 
提取码:scrt

1、首先将alsa-1.0.tar.gz这个文件拷贝到开发板的 /home
     cp /mnt/udisk/alsa-1.0.tar.gz /home

2、在home目录里面解压这个文件
     tar xvf alsa-1.0.tar.gz

3、进入  alsa-1.0这个文件夹 
     cd  alsa-1.0
     进入这个文件夹里面的bin目录
     cd bin
     将这个bin目录里面的  arecord aplay这两个文件复制到 /bin
     cp arecord aplay /bin
    
4、 然后cd ..
     进入lib这个文件夹 cd bin
     将里面so这些动态库复制到 /lib这个文件夹
     cp libasound.s* /lib

5、回到home目录
      cd /home
      在home目录里面建立一个文件夹 叫gec
      mkdir gec
      继续在gec文件夹里面建立一个文件夹alsa-1.0.22
      mkdir -p /home/gec/alsa-1.0.22
      将这个alsa-1.0整体copy 到gec文件夹里面去 并且要换一个名字叫alsa-1.0.22(必须是这个名字)
      cd /home/alsa-1.0  进入这个文件夹
      cp -rf * /home/gec/alsa-1.0.22

6、录音环境配置完成,进行测试

      录音:arecord 1.wav  (ctrl + c结束)
      放音:aplay 1.wav

      录音4s,频率16000,保存为hehe.pcm:arecord -d4 -c1 -r16000 -traw -fS16_LE hehe.pcm
      放音:aplay -d4 -c1 -r16000 -traw -fS16_LE hehe.pcm

(录音是arecord ,放音是aplay ,其他参数都是一样的)

4、编程实现语音识别

我们进行语音识别时,也是在网络编程,需要客户端和服务端。在这里,客户端是开发板,开发板进行录音,并将录音文件发送给乌班图。Ubuntu是服务端,接收开发板发送过来的录音文件,并进行语音识别,返回语句的id。

在第二部分我们知道文件夹中的bin存放可执行文件以及识别的音频。我们进入bin文件夹可以看到一个call.bnf,用记事本打开:

看到这个,我们就能知道语音识别仅仅能识别返回在call.bnf定义了id的语句,那怎么才能识别我们想要说的话呢?简单,我们自己在里面加就可以了。比如加个“打开蜂鸣器”:

有了这个基础,我们后面才能实现语音控制开发板。

现在先实现简单的语句识别,即开发板录音并将录音文件发给ubuntu,ubuntu进行语音识别,并返回对应语句的id:

建立两个文件夹:client和server

client文件夹存放客户端程序tcp_client.c

server文件夹存放科大讯飞的sdk和服务端程序tcp_sever.c

由于这次是传文件,和上一篇网络编程的传法还是有些不同的

关键代码:

tcp_client.c :

void function(void)
{
	unsigned char buf[1024] = {0};
    while(1)
    {
        //首先发送文件大小
		//阻塞你按回车
		printf("按回车继续\n");
		getchar();
		//弄你的文件
		printf("请录音4秒........\n");
		//获取音频文件 
		system("arecord -d4 -c1 -r16000 -traw -fS16_LE hehe.pcm");
		int fd = open("hehe.pcm",O_RDWR);
		if(-1 == fd)
		{
			perror("open pcm error");
			exit(10);
		}
		int filesize = lseek(fd,0x00,SEEK_END);
		lseek(fd,0x00,SEEK_SET);//偏移到开头
		send(sockfd,&filesize,4,0);
		//接收信息 "error!!!" or "next!!!!"
		
		recv(sockfd,buf,9,0);
		printf("11111 %s\n",buf);
		if(strcmp(buf,"next!!!!"))
		{
			printf("服务器错误了\n");
			continue;
		}
        //如果是"next!!!!"发送文件
		while(1)
		{
			int r = read(fd,buf,1024);
			if(-1 == r)
			{
				perror("read pcm error");
				break;
			}
			else if(0 == r)
			{
				printf("over\n");
				break;				
			}
			else
			{
				send(sockfd,buf,r,0);
			}
		}
		close(fd);
		//等待接收id
		int id;
		recv(sockfd,&id,4,0);	
		if(id == 6666)
		{
			printf("打印");
		}
		printf("id ===== %d\n",id);
    }
}

asr_offine_sample.c :

//一个全局的科大讯飞的id  也就是我最终想要得到的结果
int FlayId = 0;//0代表一个错误值


//解析出相应的id出来 id固定为4位
int StringToId(const char * str)
{
	int id = 0;
	printf("------> %s\n",str);
	
	int len = strlen(str) - 3;
	//固定匹配  "id="这个字符串  模式匹配用正则表达式
	for(int i = 0;i < len;i++)
	{
		if(!strncmp(str,"id=",3))
		{
			
			str += 4;//id=" 这个字符串给过掉
			printf("------> %s\n",str);
			id = (str[0]-'0')*1000+(str[1]-'0')*100+(str[2]-'0')*10+(str[3]-'0'); 
			break;
		}
		str++;//一旦没有匹配 那么我们就往后面走一个
	}
	
	return id;
}

//语音识别  返回结果
//返回的是ID  返回0表示识别失败
int GetFlayId(void)
{
	int ret = run_asr(&asr_data);
	if(MSP_SUCCESS != ret)//识别出错
	{
		printf("离线语法识别出错: %d \n", ret);
		return 0;
	}
	return FlayId;
}

tcp_server.c :

void SaveFile(int accceptfd,int filesize)
{
	//每一次都是重复的覆盖hehe.pcm
	int fd = open("wav/hehe.pcm",O_RDWR | O_TRUNC | O_CREAT, 0664);//截短这个文件
	if(-1 == fd)
	{
		send(accceptfd,"error!!!",9,0);//失败发送这个错误
		return;
	}
	send(accceptfd,"next!!!!",9,0);//发送下一步的指令
	unsigned char buf[1024] = {0};
	int size = 0;
	//接收文件的内容
	while(1)		
	{
		int r = recv(accceptfd,buf,1024,0);
		if(-1 == r)
        {
            perror("recv error");
            break;
        }
        else if(0 == r)//客户端已经断了
        {
            printf("对方断开连接了\n");
            break;
        }
        else//接收到信息了
        {
            //将文件的内容写入到文件
			write(fd,buf,r);
			//做完之后要退出
			size += r;
			if(size >= filesize)
				break;
			
        }
	}
	
	
	
	
	close(fd);
}




//专门用于去服务一个客户的线程
void * ClinetFunction(void * arg)
{
    
    pthread_detach(pthread_self());//将其分离

    int * accceptfd = (int *)arg;
    printf(" * accceptfd = %d\n", * accceptfd);
	int filesize = 0;
    //你发什么信息过来  我就在这个信息之前加上一节 然后回发给你
    while(1)
    {
		printf("\t\t等待客户端传文件过来........\n");
        int r = recv(*accceptfd,&filesize,4,0);//阻塞等待数据过来
        if(-1 == r)
        {
            perror("recv error");
            break;
        }
        else if(0 == r)//客户端已经断了
        {
            printf("对方断开连接了\n");
            break;
        }
        else//接收到信息了
        {
            //文件大小
			
			SaveFile(* accceptfd,filesize);
			
			int id = GetFlayId();//文件接收完毕  那么我们就放过去识别即可
			//给客户端返回id
			send(* accceptfd,&id,4,0);
            
        }
    }


    close(*accceptfd);
    free(accceptfd);
	return NULL;
}

完整工程:

链接:https://pan.baidu.com/s/1thUvAArWzcqmOT6QrvGHew?pwd=yuyi 
提取码:yuyi

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/280526.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

python+django高校教材共享管理系统PyCharm 项目

本中原工学院教材共享平台采用的数据库是mysql&#xff0c;使用nodejs技术开发。在设计过程中&#xff0c;充分保证了系统代码的良好可读性、实用性、易扩展性、通用性、便于后期维护、操作方便以及页面简洁等特点。系统所要实现的功能分析&#xff0c;对于现在网络方便的管理&…

[计算机提升] Windows系统软件:管理类

3.6 系统软件&#xff1a;管理类 3.6.1 运行 通过运行程序&#xff0c;在打开输入框中输入名称&#xff0c;按下回车后可以打开相应的程序、文件夹、文档或Internet资源&#xff1a; 3.6.2 命令提示符&#xff1a;cmd 在Windows系统中&#xff0c;cmd是指"命令提示符…

HTML5+CSS3+JS小实例:过年3D烟花秀

实例:过年3D烟花秀 技术栈:HTML+CSS+JS 效果: 源码: 【HTML】 <!DOCTYPE html> <html lang="zh-CN"> <head><meta charset="UTF-8"><meta http-equiv="X-UA-Compatible" content="IE=edge"><…

【web安全】验证码识别-burp的captcha-killer-modified插件教程(基于百度接口)(总结一些坑)

前言 菜某分享 captcha-killer-modified插件的安装教程 整体安装教程可以看他的 安装captcha-killer-modified插件&#xff08;windospython环境&#xff09;_aptcha-killer-modified的安装-CSDN博客 但是有一点补充。 这个里面的codereg.py文件有个问题 可能是版本的问…

AI绘画工具Midjourney绘画提示词Prompt分享

一、Midjourney绘画工具 SparkAi创作系统是基于ChatGPT进行开发的Ai智能问答系统和Midjourney绘画系统&#xff0c;支持OpenAI-GPT全模型国内AI全模型。本期针对源码系统整体测试下来非常完美&#xff0c;可以说SparkAi是目前国内一款的ChatGPT对接OpenAI软件系统。那么如何搭…

基于NXP I.MX8 + Codesys的工业软PLC解决方案

全新i.MX 8M Plus是一个混合人工智能SoC&#xff0c;将先进的嵌入式SoC与最新的人工智能/机器学习硬件NPU技术相结合&#xff0c;通过神经网络加速器&#xff0c;为边缘计算提供强大的机器学习能力&#xff0c;是i.MX 8M Plus一个最为突出的优势。WEC-IMX8P核心板特别适合在机器…

uni-app API接口扩展组件(uni-ui)

锋哥原创的uni-app视频教程&#xff1a; 2023版uniapp从入门到上天视频教程(Java后端无废话版)&#xff0c;火爆更新中..._哔哩哔哩_bilibili2023版uniapp从入门到上天视频教程(Java后端无废话版)&#xff0c;火爆更新中...共计23条视频&#xff0c;包括&#xff1a;第1讲 uni…

如何恢复 iPhone 上永久删除的照片?

2007年&#xff0c;苹果公司推出了一款惊天动地的智能手机&#xff0c;也就是后来的iPhone。你会惊讶地发现&#xff0c;迄今为止&#xff0c;苹果公司已经售出了 7 亿部 iPhone 设备。根据最新一项调查数据&#xff0c;智能手机利润的 95% 都进了苹果公司的腰包。 如此受欢迎…

探讨kernel32.dll文件是什么,有效解决kernel32.dll丢失

在使用电脑时&#xff0c;你是否遇到过kernel32.dll丢失的困扰&#xff1f;面对这个问题&#xff0c;我们需要及时去解决kernel32.dll丢失的问题。接下来&#xff0c;我们将深入探讨kernel32.dll的功能以及其在操作系统和应用程序中的具体应用领域&#xff0c;相信这将对你解决…

统一系统脆弱性管理平台:“新一代”漏洞扫描管理系统

网络安全风险管理是政府企事业单位面临的巨大挑战&#xff0c;尤其是数字化转型带来了更多在线、移动化的新应用场景&#xff0c;随着业务量迅速增长&#xff0c;更为复杂的脆弱性管理难题也变得更加繁琐棘手。 网络安全漏洞可能被有意或无意地利用&#xff0c;从而对政府、企事…

【目标检测】yolov8结构及代码分析

yolov8代码:https://github.com/ultralytics/ultralytics yolov8的整体结构如下图&#xff08;来自mmyolo&#xff09;&#xff1a; yolov8的配置文件&#xff1a; # Ultralytics YOLO &#x1f680;, AGPL-3.0 license # YOLOv8 object detection model with P3-P5 outputs.…

基于Python的电商手机数据可视化分析和推荐系统

1. 项目简介 本项目旨在通过Python技术栈对京东平台上的手机数据进行抓取、分析并构建一个简单的手机推荐系统。主要功能包括&#xff1a; 网络爬虫&#xff1a;从京东获取手机数据&#xff1b;数据分析&#xff1a;统计各厂商手机销售分布、市场占有率、价格区间和好评率&am…

WPF+Halcon 培训项目实战(12):WPF导出匹配模板

文章目录 前言相关链接项目专栏运行环境匹配图片WPF导出匹配模板如何了解Halcon和C#代码的对应关系逻辑分析&#xff1a;添加截取ROI功能基类矩形圆形 生成导出模板运行结果&#xff1a;可能的报错你的文件路径不存在你选择的区域的内容有效信息过少 前言 为了更好地去学习WPF…

大创项目推荐 深度学习二维码识别

文章目录 0 前言2 二维码基础概念2.1 二维码介绍2.2 QRCode2.3 QRCode 特点 3 机器视觉二维码识别技术3.1 二维码的识别流程3.2 二维码定位3.3 常用的扫描方法 4 深度学习二维码识别4.1 部分关键代码 5 测试结果6 最后 0 前言 &#x1f525; 优质竞赛项目系列&#xff0c;今天…

【PyQt】(自定义类)QIcon派生,更易用的纯色Icon

嫌Qt自带的icon太丑&#xff0c;自己写了一个&#xff0c;主要用于纯色图标的自由改色。 当然&#xff0c;图标素材得网上找。 Qt原生图标与现代图标对比&#xff1a; 没有对比就没有伤害 Qt图标 网络素材图标 自定义类XJQ_Icon&#xff1a; from PyQt5.QtGui import QIc…

java go c++ 开源全文搜索引擎

Apache Lucene Java 全文搜索框架 许可证&#xff1a;Apache-2.0 开发语言&#xff1a;Java 官网&#xff1a;https://lucene.apache.org/ Apache Lucene 是完全用 Java 编写的高性能、功能齐全的全文检索引擎架构&#xff0c;提供了完整的查询引擎和索引引擎、部分文本分析引…

超维空间S2无人机使用说明书——52、初级版——使用PID算法进行基于yolo的目标跟踪

引言&#xff1a;在实际工程项目中&#xff0c;为了提高系统的响应速度和稳定性&#xff0c;往往需要采用一定的控制算法进行目标跟踪。这里抛砖引玉&#xff0c;仅采用简单的PID算法进行目标的跟随控制&#xff0c;目标的识别依然采用yolo。对系统要求更高的&#xff0c;可以对…

使用SecoClient软件连接L2TP

secoclient软件是华为防火墙与友商设备进行微屁恩对接的一款软件,运行在windows下可以替代掉win系统自带的连接功能,因为win系统自带的连接功能总是不可用而且我照着网上查到的各种方法调试了很久都调不好,导致我一度怀疑是我的服务没搭建好,浪费了大把时间去研究其他搭建方案 …

Kubernetes技术与架构-集群管理

Kubernetes技术与架构提供支撑工具支持集群的规划、安装、创建以及管理。 数字证书 用户可以使用easyrsa、openssl、cfssl工具生成数字证书&#xff0c;在kubernetes集群的api server中部署数字证书用于访问鉴权 资源管理 如上所示&#xff0c;定义一个服务类service用于负…

Flask笔记

一&#xff1a;模板渲染 一般的话都序列化成字符串 二&#xff1a;项目拆分 2.1 项目拆分 app.py init.py views.py models.py 模型数据 2.2 蓝图 三&#xff1a;路由参数 3.1 String 重点 3.2 int 3.3 path 3.4 UUID 3.5 any 四&#xff1a;请求方式 五&#xff1a;Requ…