脑机接口、嵌入式 AI 、工业级 MR、空间视频和下一代 XR 浏览器丨RTE2024 空间计算和新硬件专场回顾

在这里插入图片描述

这一轮硬件创新由 AI 引爆,或许最大受益者仍是 AI,因为只有硬件才能为 AI 直接获取最真实世界的数据。

在人工智能与硬件融合的新时代,实时互动技术正迎来前所未有的创新浪潮。从嵌入式系统到混合现实,从空间视频到脑机接口,这些前沿领域正以惊人的速度推进,为未来的人机交互描绘出令人振奋的蓝图。在本届 RTE2024 大会上,来自产业界和学术界的多位专家深入探讨了这些技术的最新进展及其潜在应用。

闪极科技 CTO 周万程、声网视频工程师许振明、萤火空间创始人邵鹏、姬械机科技联合创始人卢树强以及 Rokid 前端工程师刘亚中等分享了他们在各自领域的研究成果和独到见解。

果壳创始人、未来光锥基金创始合伙人姬十三主持了主题分享和圆桌讨论环节。

周万程:有限硬件资源下嵌入式系统的 AI 实时音频算法

在这里插入图片描述

闪极科技 CTO 周万程 在分享中深入探讨了在嵌入式系统中实现 AI 实时音频算法的挑战与解决方案。他结合自己在电路与系统领域的背景,生动阐述了 「没有嵌入式,AI 则无翅」 这一观点。

随着 AI 技术的爆发式发展,如何将先进的 AI 功能部署到轻量级的边缘计算平台上,成为提升用户体验的关键技术。然而,嵌入式系统面临着处理能力、内存和功耗等硬件资源的严格限制。

针对这些限制,周万程提出了三个优化方向:

1、降低算法复杂度: 通过量化、减枝和低秩近似等技术,显著降低计算量。

2、数据优化: 利用多级缓存、数据预取和动态缓存等策略,提高数据访问效率。

3、硬件支持: 充分利用 DSP、ASIC 和 FPGA 等硬件加速单元。

展望未来,周万程认为 NPUFPGA 的可重构特性将为嵌入式 AI 带来巨大机遇。他强调,嵌入式系统中的机器学习将成为推动 AI 发展的重要力量,因为它们能直接接触到真实世界的数据。

在这里插入图片描述

许振明:空间视频在 RTC 直播中的应用探索

在这里插入图片描述

许振明 分享了声网团队在空间视频技术方面的最新探索,重点介绍了如何将空间视频应用于实时互动直播中。

要在 RTC 中实现空间视频,必须解决三个关键问题:3D 内容的生产、传输和渲染显示。

在内容生产方面,iPhone 15 Pro 的双摄像头设计使得消费级设备能够采集空间视频成为可能。此外,AI 生成的视频,如 SORA,也可以通过时间偏移技术模拟双目效果。

在传输方面,采用 Multi-view 编码技术可以节省超过30%的码率。与此同时,还需要考虑网络抖动、FEC 保护等 RTC 特有的问题。

渲染显示 是最具挑战的环节。为了实现流畅的空间视频体验,每只眼睛至少需要 1080p 30fps,理想情况下是 4K 60fps。这对渲染性能和系统调度精度提出了很高要求。声网通过多种优化手段来保证渲染质量。

许振明表示,声网提供了灵活的 API,开发者可以根据需求选择使用声网的采集、编解码、传输等能力。除了空间视频,声网还提供 空间音频、AI 降噪、Persona 等多项技术,支持更沉浸式的 RTC 体验。

在这里插入图片描述

邵鹏:混合现实 MR 和空间计算的未来与挑战

在这里插入图片描述

苏州萤火空间创始人兼 CTO 邵鹏 首先介绍了混合现实(MR)的概念,称其为增强现实(AR)的升级分支。MR 设备可以让用户同时看到真实世界和虚拟内容,并实现虚拟与现实的无缝融合和交互。他进一步详细解释了空间计算的不同层次,从 0 自由度(DOF)到 6DOF 再到 SLAM,每一层级都要求更复杂的硬件和算法支持。

在技术细节方面,邵鹏强调了实现高质量 MR 体验所面临的挑战,包括 稳定的空间算法、明亮的实景显示、清晰的 RGB 显示以及较大的视场角(FOV)。他预测,真正的消费级 MR 眼镜可能要到 2030 至 2035 年才能问世,这将需要在重量、续航、建模能力等多个方面达到高水平。

面对这些挑战,邵鹏提出了将计算任务上云的解决方案,认为这一策略可以使本地设备更加轻便,并大大延长续航时间。然而,他也指出,这种趋势可能对国内硬件厂商构成威胁,并呼吁加强对 SLAM空间计算的研究,以在未来的技术浪潮中保持竞争力。

最后,邵鹏展示了萤火空间的产品,介绍了其能够实时快速建立空间模型,并支持远程专家进行空间标注和指导的功能。他认为这种技术在远程协作培训等领域具有广阔的应用前景。

在这里插入图片描述

卢树强:脑机接口与俱身智能计算体系的前沿探索

在这里插入图片描述

姬械机科技联合创始人卢树强开门见山地解释道,「脑机接口本质上属于智能硬件,它是对大脑信号的采集与计算,并通过与外界设备或环境的交互来实现功能。」他进一步将脑机接口技术分为两类:侵入式(需要开颅)和非侵入式(皮肤外接触)。虽然这项技术在日常生活中尚不普及,但其巨大的潜力令人期待。

俱身智能 的主要体系可以分为两大类:一类是通过视觉传感器进行环境理解和任务执行;另一类是通过智能穿戴设备(包括脑机接口)来捕捉人体信息,用于训练人形机器人。

在介绍计算体系时,卢树强详细阐述了从数据采集、处理到重建、生成的完整流程。「与 VR、XR 技术不同,我们面对的是 多元高维度的数据,」他强调道,「这就要求我们具备高精度、高采样率的传感器,以及复杂的降噪和特征识别算法。」

在这里插入图片描述

刘亚中:多维沉浸,探索 XR 中的 Web 内容新体验

在这里插入图片描述

Rokid 前端工程师刘亚中介绍了 JSAR——一个创新的 Web XR 运行时与浏览器,旨在解决当前 Web XR 内容在 XR 空间中面临的两大挑战:

应用形态的限制: 目前,Web XR 内容在 XR 设备上只能选择呈现为平面网页或独占的 3D 场景,无法同时存在,这大大限制了 Web XR 的使用场景和体验。

3D 场景中的 UI 开发复杂性: 与传统的 2D 网页相比,在 Web XR 中开发简单的 UI 组件需要大量代码,这对开发者非常不友好。

**为了解决这两个问题,刘亚中和团队开发了 JSAR。**JSAR 使得 Web XR 应用能够与其他 2D 和 3D 应用并存,并简化了 3D 场景中的 UI 开发。通过深度缓冲等技术,JSAR 实现了 Web XR 内容与 Unity 等游戏引擎渲染的无缝集成。

JSAR 的架构设计: 每个 Web XR 应用都是一个独立进程,通过客户端与 Unity 进程通信。这不仅实现了多个应用的共存,还引入了空间音频等优势。

未来展望:JSAR 将扩展更多功能,包括支持运行 HTML、传统 2D 网页等,成为真正的下一代 XR 浏览器。

在这里插入图片描述

圆桌讨论:下一代计算平台的模样

在这里插入图片描述
在这里插入图片描述

在主题是「下一代计算平台的模样」的圆桌讨论中,来自「未来光锥前沿基金」的姬十三担任主持人,参与讨论的嘉宾包括周万程、许振明、邵鹏、卢树强和刘亚中。

谈及 Apple Vision Pro 的未来, 嘉宾们普遍认为尽管存在一些局限性,但这款产品为整个行业树立了新的标杆。卢树强观察到 Vision Pro 在游戏开发和个人使用方面的需求正在增长。许振明补充道,即便 Vision Pro 停产,它对行业的影响也已经深远。

在 AI 与硬件结合的话题上, 周万程强调了 反思型 AI 的重要性,认为未来 AI 应该能够根据用户的反馈不断改进。邵鹏从混合现实的角度出发,指出大语言模型、图像识别和 3D 模型理解将极大提升 MR 设备 的交互能力和应用场景。卢树强则预测,AI 在未来两三年内将主要提供基础信息服务,而在更远的未来,可能会实现 任务和操作 层面的服务。刘亚中则提出,大语言模型使得用户 不再依赖传统的网址输入 ,而是通过 AI 自动为其选择和提供相应服务,极大提升了使用体验。

关于下一代计算平台 , 专家们提出了多元化的观点。卢树强认为 人形机器人 可能成为重要的计算平台,预计在十年内可能出现雏形。许振明则看好 汽车作为潜在的计算中心 ,特别是在自动驾驶领域。邵鹏坚持认为 云计算 仍将是主要的计算平台,但 AR/MR/VR 设备可能成为重要的人机交互界面。周万程提出 未来的计算可能是分布式的, 利用闲置的设备资源进行边缘计算。刘亚中则认为,AI 可能会引发硬件革命,用户们将能够 自行开发新的硬件 来满足他们的需求。
在这里插入图片描述

「无所不在的计算:空间计算和新硬件」技术专场由 RTE 开发者社区和未来光锥前沿基金联合出品。
在这里插入图片描述

RTE 开发者社区是聚焦实时互动领域的开发者社区。希望通过社区链接领域内的开发者和生态力量,萌芽更多新技术、新场景,探索实时互动领域的更多可能。这里你将遇见一群致力于改变人和人、人和世界,以及人和 AI 连接方式的开发者。
在这里插入图片描述

「未来光锥」是由果壳发起的科创品牌,致力于推动科研端与产业端相互融合,促进科技成果的高效转化。

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/918237.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Element UI如何实现按需导入--Vue3篇

前言 在使用 Element UI 时,按需导入(即按需引入)是一个常见的需求,尤其是在构建大型应用时。按需导入可以显著减少打包后的文件体积,提升应用的加载速度。本文将详细介绍如何在项目中实现 Element UI 的按需导入&…

【设计模式】行为型模式(五):解释器模式、访问者模式、依赖注入

《设计模式之行为型模式》系列,共包含以下文章: 行为型模式(一):模板方法模式、观察者模式行为型模式(二):策略模式、命令模式行为型模式(三):责…

.NET 9.0 中 System.Text.Json 的全面使用指南

以下是一些 System.Text.Json 在 .NET 9.0 中的使用方式,包括序列化、反序列化、配置选项等,并附上输出结果。 基本序列化和反序列化 using System; using System.Text.Json; public class Program {public class Person{public string Name { get; se…

《InsCode AI IDE:编程新时代的引领者》

《InsCode AI IDE:编程新时代的引领者》 一、InsCode AI IDE 的诞生与亮相二、独特功能与优势(一)智能编程体验(二)多语言支持与功能迭代 三、实际应用与案例(一)游戏开发案例(二&am…

优选算法 - 5 ( 栈 队列 + 宽搜 优先级队列 9000 字详解 )

一:栈 1.1 删除字符串中的所有相邻重复项 题目链接:删除字符串中的所有相邻重复项 class Solution {public String removeDuplicates(String _s) {// 用 StringBuffer 模拟一下栈结构StringBuffer ret new StringBuffer();// 接着把 _s 转换为字符数组…

【linux012】文件操作命令篇 - more 命令

文章目录 more 命令1、基本用法2、常见选项3、交互式键盘命令4、举例5、注意事项 more 命令 more 是 Linux 中的一个分页查看命令,用于逐屏显示文件内容。它特别适合用于查看较长的文件,与 cat 不同,more 不会一次性输出所有内容&#xff0c…

企业BI工具如何选择?主流5款BI工具多维对比

数据大爆炸时代,企业数据爆发式增长,来自产品、运营、价值链以及外部的数据都成指数级增长趋势。利用大数据分析实现精细化运营,驱动业务增长是企业的理想蓝图。而BI工具能够整合、分析并可视化复杂的数据集,帮助管理层和决策者快…

Qt 5.6.3 手动配置 mingw 环境

- 安装 qt 5.6.3 mingw 版 - 打开 qt creator - 找到选项 工具 - 选项- 构建和运行 - 找到 “编译器” 选项卡 ,点击 "添加" “编译器路径” 设置为 qt 安装目录下, tool 文件夹内的 g.exe 设置完成后,点击 "apply" ,使选项生…

linux使用scp和密钥在不同服务器传输文件

将源服务密钥中公钥(以pub结尾的)复制或拷贝密文,粘贴到目标服务器中的/root/.ssh/authorized_keys文件中; 测试连接:ssh -p2129 root172.129.162.537,如果使用默认端口22 -p参数可省略,注意这…

德克萨斯扑克(德扑)笔记

文章目录 比牌方法(大小)发牌下注位置一些牌面的简称QT是什么意思89s是什么意思AT是什么意思ATs是什么意思 89o是什么意思 其他术语Action 叫注/说话 - 一个玩家的决定Betting Rounds 押注圈其他术语 团建或和小伙伴聚会的时候经常玩德扑,一是凑手,二是聚…

[ 网络安全介绍 5 ] 为什么要学习网络安全?

🍬 博主介绍 👨‍🎓 博主介绍:大家好,我是 _PowerShell ,很高兴认识大家~ ✨主攻领域:【渗透领域】【数据通信】 【通讯安全】 【web安全】【面试分析】 🎉点赞➕评论➕收藏 养成习…

C++: string(二)

✨✨ 欢迎大家来到我的文章✨ 🎈🎈养成好习惯,先赞后看哦~🎈🎈 分类专栏:c 我的主页:tyler s blog 文章目录 一 string的成员函数1 insert2 resize3assign4erase5replace6 find(1) find(2)rfind…

鸿蒙应用权限控制与位置服务(Location Kit)

11_11日学习笔记 文章目录 [toc] 一、应用权限管控授权方式分类:1、[system_grant(系统授权)](https://developer.huawei.com/consumer/cn/doc/harmonyos-guides-V5/permissions-for-all-V5#system_grant系统授权权限列表)2、[user_grant&…

Ubuntu 18 EDK2 环境编译

视频:在全新的Ubuntu上从零搭建UEFI的EDK2开发环境 开始:git clone https://github.com/tianocore/edk2.git 开始编译BaseTools前先更新一下子模块:git submodule update --init ,然后:make -C BaseTools/ 问题1&a…

网络安全SQL初步注入2

六.报错注入 mysql函数 updatexml(1,xpath语法,0) xpath语法常用concat拼接 例如: concat(07e,(查询语句),07e) select table_name from information_schema.tables limit 0,1 七.宽字节注入(如果后台数据库的编码为GBK) url编码:为了防止提交的数据和url中的一些有特殊意…

Git 搭建远程仓库、在 IDEA 工具中的配置和使用

Git的概念、安装、操作与分支管理和图形化界面TortoiseGit(小乌龟 )的安装与使用-CSDN博客 目录 一、远程仓库 1)在github上创建仓库 2)在gitee上创建项目 3)如何将远程的项目clone 到本地 4)公司自己…

自然语言处理技术之细粒度实体识别

细粒度实体识别(Fine-Grained Named Entity Recognition, FG-NER) 1. 概述 细粒度实体识别是自然语言处理(NLP)领域中的一个重要研究方向,其目标是从文本中识别出更加具体和详细的实体类型。相比于传统的实体识别(NER),细粒度实体识别不仅关注常见的实体类别(如 人名…

k8s 1.28.2 集群部署 docker registry 接入 MinIO 存储

文章目录 [toc]docker registry 部署生成 htpasswd 文件生成 secret 文件 生成 registry 配置文件创建 service创建 statefulset创建 ingress验证 docker registry docker registry 监控docker registry ui docker registry dockerfile docker registry 配置文件 S3 storage dr…

为什么要使用Ansible实现Linux管理自动化?

自动化和Linux系统管理 多年来,大多数系统管理和基础架构管理都依赖于通过图形或命令行用户界面执行的手动任务。系统管理员通常使用清单、其他文档或记忆的例程来执行标准任务。 这种方法容易出错。系统管理员很容易跳过某个步骤或在某个步骤上犯错误。验证这些步…

一文了解Android的核心系统服务

在 Android 系统中,核心系统服务(Core System Services)是应用和系统功能正常运行的基石。它们负责提供系统级的资源和操作支持,包含了从启动设备、管理进程到提供应用基础组件的方方面面。以下是 Android 中一些重要的核心系统服…