1.获取实时音频数据 media_bug (好多mrcp方式也崩溃所以用以下方式)
可以参考 方式可以通过socket或者webscoket
freeswitch[1.05]用websocket发送mediabug语音流到ASRProxy实现实时质检和坐席辅助 - 知乎
2.webscoket 好多c的库放模块容易崩溃 可以选择socket 系统自带无需引用
可以参考C/C++ 创建Socket实现双工通信_c++ 客户端和服务端双工通信-CSDN博客
3.如果用socket java 接收需要开启一个udp的接收端口 端口可以动态创建或者创建一批用
netty样例
EventLoopGroup group = new NioEventLoopGroup(); Bootstrap b = new Bootstrap(); groupmap.put(uuid,group ); //由于我们用的是UDP协议,所以要用NioDatagramChannel来创建 b.group(group).channel(NioDatagramChannel.class).option(ChannelOption.SO_BROADCAST, true).option(ChannelOption.RCVBUF_ALLOCATOR, new FixedRecvByteBufAllocator(1024)) .handler(new ChannelInitializer<Channel>() { @Override protected void initChannel(Channel ch) throws Exception { ChannelPipeline pipeline = ch.pipeline(); //设置处理handler.执行具体处理方法 pipeline.addLast(new SimpleChannelInboundHandler<DatagramPacket>() { @Override protected void channelRead0(ChannelHandlerContext ctx, DatagramPacket packet) throws Exception { //pcm data ByteBuf buf = packet.copy().content(); int len = buf.readableBytes(); byte[] req = new byte[len]; buf.readBytes(req); .....
接收到数据可以用阿里\腾讯的实时音频处理传过去就行 注意是8k 如果需要16k fs有方法能转 在回调中
调用uuid_fileman或者uuid_break 去暂停或打断,根据翻译的结果
阿里免费的2并发 可以呼叫测试
最后找个能配置流程的框架 封装下对接这个文本对话就行了
拿到的是pcm数据当然可以用silero_vad、 webrtc vad等做静音拆分
也可以用rnnoise 、webrtc的降噪来处理音频。
如果模块或流程觉得麻烦可以到
https://item.taobao.com/item.htm?id=653611115230