聆思CSK6大模型+AI交互多模态开源SDK介绍

视觉语音大模型 AI 开发套件( CSK6-MIX )是围绕 CSK6011A 芯片设计的具备丰富语音图像功能与硬件外设的开发板,采用具备丰富组件生态的 Zephyr RTOS作为操作系统,官方提供了十几种开源SDK,包含大模型语音交互、大模型拍照识图、文生图、人脸识别、头肩追踪、手势识别、坐姿提醒等。

聆思科技还提供了模型训练推理工具将自己的算法模型部署至芯片上,也可以配合这个工具构建自己的 AI 应用。

语音交互与识图

功能介绍

SDK主要包含以下功能:

●语音交互:支持按键录音或唤醒后通过语音与大模型进行对话

●拍照识图:支持通过摄像头拍摄图像并上传给大模型进行识别,支持依据识图内容进行提问

●图片生成:支持通过语音交互描述画面内容,令大模型生成图片并显示至套件屏幕上

语音交互模式

支持的语音交互模式

多模态SDK支持三种交互方式,其特点如下:

模式

唤醒方式

交互方式

按键交互

按下屏幕麦克风图标或开发板K3按键

按住按键说话,松开提交

语音唤醒(单轮)

唤醒词 “小美小美”

听到提示音 “在呢” 后进行提问,每次提问均需要唤醒

语音唤醒(多轮)

唤醒词 “小美小美”

听到提示音 “在呢” 后进行提问,可持续对话,当超过20秒无语音输入时自动结束本次交互

语音交互模式的切换

在待机页面,下滑可调出下滑菜单,点击下滑菜单中的 设置图标,可进行配置页面:

选中对应的模式后,点击左上角即可回到待机页面并生效。

按键交互模式

设置成按键交互(按键唤醒)模式下,按住屏幕上的麦克风按钮或开发板上的K3按键,即进入录音状态,松开按键则结束录音并提交。

语音唤醒模式

当设置为语音唤醒(单轮)语音唤醒(多轮),可通过唤醒词 —— “小美小美” 对设备进行唤醒,当听到 “在呢” 的提示音后,即可正常进行语音输入。

退出对话

在使用过程中,点击左上角即可结束本轮对话回到待机页面,此操作会同步清除本次对话的上下文信息。

拍照识图

在待机页,点击拍照按钮即可进入取景页面,对准要拍照的物体,点击右侧中间的拍照键完成抓拍,确认画面抓拍正常后(无晃动模糊的情况),点击右侧的 √ 进行提交识别:

文生图

在设备进入语音交互状态后,可以通过带有绘画意图的提示词让大模型进行作画,比如:

●“画一只熊猫”

●“画一个人正在使用电脑”

图片生成与设备控制

功能介绍

本示例主要包含以下功能:

  • 可通过“小聆小聆”对设备进行唤醒
  • 可通过语音交互与大模型进行对话
  • 可通过语音交互使用大模型绘制图片并显示在屏幕上
  • 可通过语音交互通过大模型控制屏幕显示的颜色
  • 支持通过LSPlatfrom接入自己的大模型应用

大模型语音对话功能

  • 我们可以通过 “小聆小聆” 唤醒词对开发套件进行唤醒
  • 套件被正常唤醒时,会播放应答语 —— "在呢"
  • 此时我们可以接着对开发套件说出我们的问题,比如:“什么是大模型?”
  • 稍等片刻后,开发套件将播放返回的答案

大模型作画

  • 我们可以通过 “小聆小聆” 唤醒词对开发套件进行唤醒
  • 套件被正常唤醒时,会播放应答语 —— "在呢"
  • 此时我们可以接着对开发套件以 “画xx” 的句式说出我们希望它绘制的图像,比如:“画一只大熊猫”
  • 稍等片刻后,开发套件将在显示屏上显示大模型根据我们需求生成的图片

大模型控制设备

  • 我们可以通过 “小聆小聆” 唤醒词对开发套件进行唤醒
  • 套件被正常唤醒时,会播放应答语 —— "在呢"
  • 此时我们可以接着对开发套件件以 “把屏幕设置成xx” 的句式说出希望屏幕显示的颜色,比如:“把屏幕设置成大海一样的颜色”
  • 稍等片刻后,开发套件将把屏幕设置成理解了我们描述后的颜色

智能问答与坐姿检测

功能介绍

本示例功能包含:

  • 坐姿检测:通过摄像头检测人员坐姿,并在出现不良坐姿时进行提醒(红灯闪烁)
  • 语音识别:支持离线识别指定唤醒词并进行录音
  • 网络:通过 WIFI 芯片接入网络,对接聆思大模型平台,支持与大模型进行对话
  • 屏显:通过显示屏展示应用相关动画界面

体验大模型语音对话功能

  • 我们可以通过 “小聆小聆” 唤醒词对开发套件进行唤醒
  • 套件被正常唤醒时,会播放应答语 —— "在呢"
  • 此时我们可以接着对开发套件说出我们的问题,比如:“什么是大模型?”
  • 稍等片刻后,开发套件将播放返回的答案

体验坐姿检测

本示例工程中默认启用了坐姿检测功能,当摄像头识别到不良坐姿时,开发板上也将闪烁红色 LED 进行提醒,同时,我们也可通过 PC 工具查看实时拍摄的图像与坐姿检测结果。

本示例运行时,摄像头将持续拍摄图像并并送入坐姿检测算法进行处理,当检测到画面中出现不良坐姿(如趴桌、手托脸等)时,将闪烁红色 LED 进行提醒,如下图。

借助串口连接即可看到预览图和识别结果;

相关资料

开发版硬件详情和资料下载套件简介 | 聆思文档中心

大模型多模态应用开发培训视频大模型时代下的智能硬件新玩法_哔哩哔哩_bilibili

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/720124.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

冒泡排序、选择排序

冒泡排序 按照冒泡排序的思想,我们要把相邻的元素两两比较,当一个元素大于右侧相元素时,交换它们的位置;当一个元素小于或等于右侧相邻元素时,位置不变 大的往右丢(往下沉),小的往…

动手学深度学习(Pytorch版)代码实践 -深度学习基础-09过拟合与欠拟合

09过拟合与欠拟合 #通过多项式拟合来探索过拟合和欠拟合 #欠拟合是指模型无法继续减少训练误差。 #过拟合是指训练误差远小于验证误差。 import math import numpy as np import torch from torch import nn from d2l import torch as d2l import liliPytorch as lp#生成数据集…

数据驱动决策:工单统计工具如何赋能企业精准运营

在当今这个数字化飞速发展的时代,企业对于内部运营效率的追求已经达到了前所未有的高度。你是否曾为了繁杂的工单统计管理而头疼不已?是否曾因为无法准确进行工单统计数据而错失商机?今天,我将向你展示一款革命性的工单统计工具&a…

AI从云端到边缘:人员入侵检测算法的技术原理和视频监控方案应用

在当今数字化、智能化的时代,安全已成为社会发展的重要基石。特别是在一些关键领域,如公共安全、智能化监管以及智慧园区/社区管理等,确保安全无虞至关重要。而人员入侵检测AI算法作为一种先进的安全技术,正逐渐在这些领域发挥着不…

MySQl基础入门⑯【操作视图】完结

上一边文章内容 表准备 CREATE TABLE Students (id INT AUTO_INCREMENT PRIMARY KEY,name VARCHAR(100),email VARCHAR(255),major VARCHAR(100),score int,phone_number VARCHAR(20),entry_year INT,salary DECIMAL(10, 2) );数据准备 INSERT INTO Students (id, name, ema…

DolphinScheduler日志乱码、worker日志太多磁盘报警、版本更新导致不兼容怎么办?

作者 | 刘宇星 本文作者总结了在使用Apache DolphinScheduler过程中遇见过的常见问题及其解决方案,包括日志出现乱码、worker日志太多磁盘报警、版本更新导致不兼容问题等,快来看看有没有困扰你想要的答案吧! DolphinScheduler集群环境有多…

AI大模型的策略布局:通用广度与垂直深度的融合之道

1. 设计理念: 通用大模型(GeneralPurpose Large Models):旨在处理多种类型的任务,不特定于某个领域或应用。它们通常具有广泛的知识和能力,能够理解和生成自然语言、进行图像识别、解决数学问题等。 1. 广…

FileZilla证书过期,导致FileZilla Client联不上,或者老断开的处理

1、先到服务器上去重新生成一下证书,并且覆盖掉老的证书。edit--settings 输入信息,并且确认生成新的证书: 2、Client连接的时候,弹出证书信任,点击确认。 这样第一次连接,然后访问目录全都是好的&#xff…

如何开发盲盒小程序APP——入门指南

一、前言 随着盲盒经济的兴起,越来越多的开发者开始关注如何开发盲盒小程序APP。盲盒小程序不仅能为用户提供新颖的购物体验,还能为商家带来可观的利润。本文将为大家介绍如何入门开发盲盒小程序APP。 二、需求分析 目标用户:明确你的目标…

视频太大了怎么缩小内存

我们在分享视频的时候,有时候会遇到过视频文件太大,无法发送或者上传的情况,别担心,今天我就来给大家分享一个简单有效的方法,让你的视频变得更小,更方便分享! 打开 “51视频处理官网 的网站。上…

如何使用CST软件敏感度分析 sensitivity analysis --- 天线F-ROM求解器

我们介绍一个自带案例,与直接使用参数配合频域ROM算法不同,这回我们演示constraint参数配合频域通用算法。以自带T分器为例: 其中有一个参数控制了金属柱的半径,初始值为1: 这个参数是个constraint,添加方法…

PowerBi 获取指定时间间隔的日期的方法

获取指定时间间隔的日期,比如我们想得到2024年5月31日后的第三天。 网络上的教程一般是使用DATEADD()函数。 但是这个函数返回的是表。假如我们的需求是不做汇总等计算,只是把它作为一个计算列,或者度量值,那么我更推荐用DATE(&…

迷你小风扇哪个品牌好?迷你小风扇前十名公开揭晓!

随着夏日的炎热袭来,迷你小风扇成为了许多人随身携带的清凉利器。无论是在办公室、户外活动,还是在旅行途中,迷你小风扇都以其小巧便携、强劲风力和持久续航的优势,迅速俘获了大批用户的喜爱。然而,市面上迷你小风扇品…

对yoloV8进行标签过滤来实现行人检测

前言 上一章我们介绍的通过迁移学习,在新的行人数据集上使用已经学习到的特征和权重,从而更快地实现行人检测任务。模型就会调整其参数以适应新的数据集,以提高对行人的识别性能。接下来介绍一种更快更便捷的方法,依旧是基于yolo…

【windows|002】WEB服务和域名介绍

🍁博主简介: 🏅云计算领域优质创作者 🏅2022年CSDN新星计划python赛道第一名 🏅2022年CSDN原力计划优质作者 🏅阿里云ACE认证高级工程师 🏅阿里云开发者社区专…

Android 断点续传基础之单线程下载

**遇到的问题:**在这因为返回值的问题烦躁了一下,有可能出现空指针的异常,已经提出成文章了 请参考http://blog.csdn.net/qq_27489007/article/details/53523378 文件关系图 断点续传流程图 开始撸代码(主要代码) /** 普通断点续传 */ …

计算机丢失MSVCP140.dll的一键修复方案,快速解决dll问题

电脑已经成为我们生活中不可或缺的一部分。然而,在使用电脑的过程中,有时会遇到一些错误提示,其中之一就是“丢失msvcp140.dll”。那么,这个错误提示到底是怎么回事呢?小编将从多个方面进行详细描述,帮助大…

【自动驾驶】串口通信控制与反馈

文章目录 串口通信控制与反馈通讯协议上行数据帧解析下行数据帧解析串口通信控制与反馈 通讯协议 上行数据指的是机器人底盘向上位机发送的状态数据, 下行数据指的是上位机向机器人底盘发送的控制信息。 上行数据帧解析 机器人运动底盘通过串口发送的数据包格式,如下表所…

【回溯算法题记录】39. 组合总和

题目🔗 题目描述 给你一个 无重复元素 的整数数组 candidates 和一个目标整数 target ,找出 candidates 中可以使数字和为目标数 target 的 所有 不同组合 ,并以列表形式返回。你可以按 任意顺序 返回这些组合。 candidates 中的 同一个 数…

Vue3 状态管理 - Pinia,超详细讲解!

前言: 哈喽,大家好,我是前端菜鸟的自我修养!今天给大家分享【Vue3 状态管理 - Pinia】,超详细讲解!并提供具体代码帮助大家深入理解,彻底掌握!原创不易,如果能帮助到带大…