2024 AIGC 规划:探索交互体验变革及 智能硬件基础设施篇

TL;DR

  • Run LLM/Embedding on Android: https://github.com/unit-mesh/android-semantic-search-kit

  • Inference SDK:https://github.com/unit-mesh/inference

正文:

在过去的一年时间里,国内外大中型公司都在探索、引入了 GenAI / AIGC(生成式 AI),并在 2024 年将持续探索更多的可能性。因此自 10 月起,我们(Thoughtworks)与不同公司的团队持续交流了如何规划 2024 的 AIGC,从在软件研发中应用到产品设计,再到一些新的趋势探索。

关于软件研发部分,可以参考我过去写的文章,或者我们将发布的 2024 规划 AIGC + 工程交通新文章里。

引子 :AIGC + 智能硬件 = 随身智能

在 2024 年的规划的内容里,其中最吸引人的部分是关于新交互、新体验。在这一周里,我们也看到了人们对于 Humane 这一类直接集成 ChatGPT 的产品。而作为一个工程师、架构师,我会更关注于如何去建设这样的基础设施,以便于支撑未来的产品演进。

52be74fb026b4578118c4582e92068a1.png

假设 AIGC 要引来体验上的变革,必须要引入新的 XR 设备,来提供这种能力。因此,作为探索计划的一部分,我们开始探索和构建运行在嵌入式设备的 PoC,诸如运行于 Android、iOS 上的本地搜索增强,运行于 Raspberry Pi 上的智能 AI 中枢。

端侧的智能趋势:浅析交互体验变革

9fa1748ea0a1a3276bcd14596d6d9cb0.jpeg

从现在的各种技术趋势来说,出现了更多的新可能性和新机会,等待着有缘人去引领这个时代。

多感官融合:多模态融合

从最初的 AI 聊天,逐渐演进到语音交互,甚至可以通过简单的语音指令生成出色的效果图,这预示着未来有更为广泛的可能性。AI 的涌现使得从文本生成到图像、语音、视频的交互变得愈加便捷。这种多模态的处理能力在一定程度上成为人类工作的强有力助手。

本地化智能:更强的本地 AI 运行能力

从运行在经典 Android 系统上的 LLaMA.cpp,到运行在小米手机的 1.3 B 端侧模型,再到天玑 9300 这一类可以在移动端运行大模型的芯片。当移动端拥有了更好的 GPU、AI 芯片时,Native SDK 更加完善时,移动设备将具备更多的智能能力。

专有模型:更小的模型体积

尽管,微软的《CODEFUSION: A Pre-trained Diffusion Model for Code Generation》指出的 20B 大小的 ChatGPT 3.5 Turbo 真假难辨。因此,毫无疑问:模型可以蒸馏等手段缩小到更小的模型,而更小的模型则更适合在本地运行。

XR 技术:拓展虚拟与现实的融合

尽管 Meta 的元宇宙计划和 PICO 的裁员情况,以及我目前闲置的 Oculus,似乎暗示了 XR 领域的一些波动。然而,与此同时,越来越多的 AIGC(增强与智能融合计算)设备纷纷登场,它们不仅继承了 XR 的强大能力,更为现实世界注入了新的活力。随着 AIGC 技术的不断增强,我们或许将迎来一个充满生机、数字人物云集的虚拟宇宙,取代了过去的荒无人烟。

PS:对于趋势分析来说,只要你猜想得够多,总有一个能对的。

智能化端侧的浮现:连接 “智障设备” 的智能中枢

171dfd0c9cdf3861453e28bff24c238a.jpeg

人机交互(HCI,Human-Computer Interaction):是指人与计算机之间使用某种对话语言,以一定的交互方式,为完成确定任务的人与计算机之间的信息交换过程。而过程中,就涉及到了硬件、软件、以及用户界面设计等多个方面,旨在提供用户友好的、高效的、以及令人满意的交互体验。

在消费者市场里,比较流行的两类设备是:可穿戴设备和智能家居设计。与添加新的设备相比,在已有的这些设备里添加 AIGC 能力,显然会带来更多的智能,改善现有的智障。

可穿戴设备的中枢

10 年前,穿戴设备的入门款智能手环是没有屏幕,而 10 年后的今天,他们都有一个非常大的屏幕及低的功耗,如小米手环 8 Pro。而在现有的可穿戴设备里,大部分是增强人类能力的,诸如于采用神经网络的翻译机、没有啥智能的智能手表、智障般的随身智能智能眼镜助理等等。

而由于这些设备的能力所限,都会依托于 “手机” 作为配置端或展示端。也因此在这些设备里,手机依旧会作为一个中转型中枢所在 —— 除非,我们更愿意一天一充。

PS:不过,我的 499 小米手环与华为手表的用途几乎一致,消息提醒 + 久坐提醒。

智能家居设备的中枢

在我的家里,围绕于“智能音箱” + 30+ 左右的所谓智能设备,构建了一个智障的控制体系。而一切的根源则是由于:音箱语音解析能力的不足

而在以智能音箱为控制核心的家居设备体系里,尽管依然依赖于手机来添加新的设备。但是随着 AIGC 能力的引入,添加新设备将变得更加简单,解析用户的指令转换成特定的数据结构。只是,这一类设备的解析是交由与服务端模型交互。

而在诸如于 Apple TV 这一类具备更强计算能力的设备里,则可以使得本地化模型具备更多的可能性。

端侧的基础设施构建规划

15839b420dbaf15b530c81ba88e11cc0.png

最后,让我们回到主题上来,其实对于这一类端侧设备来说,主要分为三类:

  • 运行在类 Unix/Linux 操作系统的中枢设备。拥有比较强的 CPU、GPU、AI 能力,典型的设备是经典的 Android 家族操作系统、iOS 家族操作系统以及 HarmonyOS、HyperOS 等类 Android 的国产操作系统。

  • 其它嵌入式 Linux 操作系统设备。与我们熟知的 Android 不同的是,如今有大量的设备运行在 Linux 系统之上,诸如路由器运行在 OpenWrt 系统之上。

  • 低功耗与超低功耗嵌入式设备。这些设备通常计算资源受限,计算能力稍强的可以运行 RT-Thread、FreeRTOS 等操作系统,计算能力弱则是通过一个 main-for(;;) 来完成。

对于低功耗设备而言,它依旧是与中枢设备进行交互,所以并不会有太大的变化。唯一需要思考的是,到底要将具备什么能力?而对于类 Unix 设备来说,我们则需要构建对应的运行 AI 模型能力,至于是否需要更大的模型能力,则需要根据不同场景规划。

由于考虑到开发速度的影响,可以看到大量的设备是以 Android、iOS 系统为基础的,所以可以先以此为场景分析和构建。

典型场景所需能力分析

根据我们过往的 PC、Server 端应用开发经验,我们设计的四个 PoC 场景来构建移动端、嵌入式端的基础设施能力。诸如于:

  • AIGC 应用:IM/协同办公。只需要简单地接入 LLM 能力,构建对应的 SDK。

  • 搜索增强:本地语义化搜索。在本地拥有 embedding 能力,以在本地进行语义化搜索。

  • 端侧辅助:本地自动补全。在本地具备运行模型的能力。

  • 指令解析:智能中枢。具备一定的模型微调能力,并面向嵌入式设备优化。

而根据不同的业务领域,如金融、制造等,还会出现不同的差异化。

构建基础设施能力

62df9ff91eb5365afaa8535a924dd65b.png

考虑到跨设备能力与加密等问题,采用原生开发(诸如 Android 端采用的 C++)技术,更适合运行于在移动端,并且还拥有大量的人才能实现这一类工作。而在我们构建 SDK 的 PoC 时,以 Android + Rust 作为胶水语言来封装 C++ 库,以借助 Rust 优秀的语言能力与交叉编译(cross-compilation 能力)。

在这里,你可以看到我们构建 Android 语义化搜索的示例:https://github.com/unit-mesh/android-semantic-search-kit,包含了如何运行 Tokenizer、OnnxRuntime,以及对应的模型转换和处理。

a6af866a6858409cc5c7d8ba30cac7c6.png

随后,基于上述的 PoC,我们开始设计原生 SDK,并开始为 Flutter 等封装基础设施,即:https://github.com/unit-mesh/inference 。

总结

最后,由 ChatGPT 编写这篇文章的总结:

2024年,全球企业将不断探索生成式人工智能(GenAI / AIGC),展望未来,AIGC与智能硬件的结合将推动新的交互和体验。多感官融合、本地智能、小型模型和XR技术将改变人机交互,使设备更智能。在端侧设备方面,类Unix/Linux中枢、嵌入式Linux设备和低功耗设备都面临挑战。2024年,AIGC 和智能硬件融合将引领人机互动和智能设备发展的新时代。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/138587.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

记一次FastJson报错

文章目录 报错内容原因探寻原因及解决方案 报错内容 起因是一段很普通的字符串转Java对象的代码,在本地和内网测试都没有问题,偏偏外网一跑就报错,错误如下: 报错的代码特别简单,涉及到公司代码这里用测试代码演示,就…

Java简介

一、Java简介 Java是一门面向对象的编程语言,不仅吸收了C语言的各种优点,还摒弃了C里难以理解的多继承、指针等概念,因此Java语言具有功能强大和简单易用两个特征。Java语言作为静态面向对象编程语言的代表,极好地实现了面向对象…

国内外四款强大的远控使用体验:ToDesk、向日葵、AnyDesk、Microsoft 远程桌面横向比较

目录 一、引言 二、横测体验 1、ToDesk 2、向日葵 3、AnyDesk安力桌 4、Microsoft 远程桌面 三、评测总结与建议 一、引言 随着科技快速发展和数字化进程的驱动,远程控制软件在日常生活和工作中变得愈加广泛。无论是在家办公、技术支持还是远程教育&#xff…

使用Java实现一个简单的贪吃蛇小游戏

一. 准备工作 首先获取贪吃蛇小游戏所需要的头部、身体、食物以及贪吃蛇标题等图片。 然后,创建贪吃蛇游戏的Java项目命名为snake_game,并在这个项目里创建一个文件夹命名为images,将图片素材导入文件夹。 再在src文件下创建两个包&#xff0…

【rl-agents代码学习】01——总体框架

文章目录 rl-agent Get startInstallationUsageMonitoring 具体代码 学习一下rl-agents的项目结构以及代码实现思路。 source: https://github.com/eleurent/rl-agents rl-agent Get start Installation pip install --user githttps://github.com/eleurent/rl-agentsUsage…

PaaS基础建设

PaaS(Platform-as-a-Service:平台即服务)是应用程序和服务的部署平台。Paas为开发、测试和管理软件应用程序提供所需的开发环境,是云计算服务类型之一。 PaaS是什么?IaaS、SaaS、PaaS三种云服务区别 PaaS(P…

​《水经注全国三维离线GIS系统》硬件安装教程

有些工作,是需要一些外在动力才能完成的。 为什么这么讲呢? 因为正是在客户的要求下,我们才撰写了《水经注全国三维离线GIS系统》的硬件安装教程,而且还录制了视频教程。 当用户收到货物以后,就可以通过本教程清点货…

深度学习AI识别人脸年龄

以下链接来自 落痕的寒假 GitHub - luohenyueji/OpenCV-Practical-Exercise: OpenCV practical exercise GitHub - luohenyueji/OpenCV-Practical-Exercise: OpenCV practical exercise import cv2 as cv import time import argparsedef getFaceBox(net, frame, conf_thresh…

深度剖析c语言程序 -- 函数栈帧的创建和销毁(纯肝货)

本章的内容: 什么是函数栈帧? 理解函数栈帧能解决什么问题? 函数栈帧的创建和销毁解析 本文放到 --> 该专栏内:http://t.csdnimg.cn/poMzA 目录 什么是函数栈帧❓ 理解函数栈帧能解决什么问题呢?💢 函数栈帧的…

计数排序及优化

🎉个人名片: 🐼作者简介:一名乐于分享在学习道路上收获的大二在校生 🐻‍❄个人主页🎉:GOTXX🐼个人WeChat:ILXOXVJE🐼本文由GOTXX原创,首发CSDN&a…

汽车一键启动智能系统功能作用

在现代科技的推动下,我们的生活每天都在发生着变化。其中,汽车智能一键启动系统就是科技改变生活的最好例子之一。 首先,我们来简单了解一下汽车智能一键启动系统。它是一种利用先进的电子技术和无线通信技术,实现无需钥匙即可启…

基于单片机智能输液器监控系统的设计

**单片机设计介绍, 基于单片机智能输液器监控系统的设计 文章目录 一 概要二、功能设计设计思路 三、 软件设计原理图 五、 程序六、 文章目录 一 概要 基于单片机的智能输液器监控系统可以实现对输液过程的实时监测和控制,以下是一个基本的设计介绍&am…

【数据结构——队列的实现(单链表)】

数据结构——队列的实现(单链表) 一.队列1.1队列的概念及结构 二.队列的实现2.1 头文件的实现——(Queue.h)2.2 源文件的实现—— (Queue.c)2.3 源文件的实现—— (test.c) 三.队列的…

拼多多API接口,打造智能化电商平台

近年来,电商行业的崛起给人们的购物带来了极大的方便。随着电商行业的发展,拼多多作为新兴电商平台已经成为市场焦点。 同时,随着技术的发展,API(Application Programming Interface,应用程序编程接口&…

pta 6翻了 Python3

“666”是一种网络用语,大概是表示某人很厉害、我们很佩服的意思。最近又衍生出另一个数字“9”,意思是“6翻了”,实在太厉害的意思。如果你以为这就是厉害的最高境界,那就错啦 —— 目前的最高境界是数字“27”,因为这…

云课五分钟的一些想法

起源 自中学起,就积极学习和掌握互联网相关知识,到如今已经快30年了。 个人也全程经历了从信息时代的互联网(硬)到智能时代的大模型(软)。 整体信息到智能的基础设施,由硬到软,机…

CRM系统:除了销售管理,还能做些什么?

企业的健康发展,离不开业绩的提升。在企业数字化转型的背景下,采用数字化应用进行管理已成为共识。许多企业认识到了应该使用CRM客户管理系统来进行销售管理,但CRM能做的还有很多。下面说说除了销售管理,CRM系统还能做些什么&…

继承和多态_Java零基础手把手保姆级教程(超详细)

文章目录 Java零基础手把手保姆级教程_继承和多态(超详细)1. 继承1.1 继承的实现(掌握)1.2 继承的好处和弊端(理解) 2. 继承中的成员访问特点2.1 继承中变量的访问特点(掌握)2.2 sup…

石英增强光声光谱气体传感技术中的高精密压力控制解决方案

摘要:光声池内气体压力的可调节控制以及稳定性是保证光声法高精度测量的关键,但在目前的光声和光谱研究中,对气体样品池内压力控制技术的报道极为简单,甚至很多都是错误的,根本无法实现高精度调节和控制,为…

Autosar模块介绍:Memory_3(MemIf-内存接口抽象)

上一篇 | 返回主目录 | 下一篇 Autosar模块介绍:Memory_3(MemIf-内存接口抽象 1 基本术语解释2 MemIf组成结构图 1 基本术语解释 编号缩写原文解释1(Logical) Block——可单独寻址的连续内存区域(即,用于读、写、擦除、比较等操作&#xff…