Llama 3.2来了,多模态且开源!AR眼镜黄仁勋首批体验,Quest 3S头显价格低到离谱

如果说 OpenAI 的 ChatGPT 拉开了「百模大战」的序幕,那 Meta 的 Ray-Ban Meta 智能眼镜无疑是触发「百镜大战」的导火索。自去年 9 月在 Meta Connect 2023 开发者大会上首次亮相,短短数月,Ray-Ban Meta 就突破百万销量,不仅让马克·扎克伯格直呼 Amazing,更促使了谷歌、三星、字节跳动等国内外大厂的纷纷入局!

时隔一年,Meta 再次在 Connect 开发者大会上推出了智能眼镜新产品 Orion,这是该公司推出的首款全息 AR 眼镜,扎克伯格称其为世界上最先进的眼镜,将会改变未来人与世界的交互方式。

此外,按照惯例,Meta 通常会在 Connect 大会推出 Quest 头显新产品,今年亦是如此。鉴于去年发布的 Meta Quest 3 被用户们普遍反映价格过高,今年 Meta 推出了一款性能与 Quest 3 相近但价格更亲民的新头显 Quest 3S,这款头显被认为是当前市场上最佳的混合现实设备,可以提供极佳的超现实体验。

当然,作为 Meta 旗下备受瞩目的核心技术之一,Llama 模型也在此次发布会上迎来了重大更新。多模态 Llama 3.2 能够同时理解图像和文本,手机也能跑大模型,为其开源生态再添助益。

Meta 的 AR 梦想成真,Orion 眼镜开启全新交互时代

今年 4 月,为庆祝 Reality Labs 成立 10 周年,Meta 曾发布一篇文章概述该部门的发展历史,并在文中预告了其下一个核心产品——首款 AR 眼镜。Meta 表示,Quest 3 能够让用户在物理世界中与数字内容沉浸式互动,Ray-Ban Meta 眼镜让用户享受到 Meta AI 的实用性和娱乐性,而新款 AR 眼镜则会结合这两者的优点,实现最佳的技术融合。

随着 Meta Connect 2024 的临近,市场上越来越多的声音推测,这款 AR 眼镜将会在本次大会中发布。不出所望,今天,Meta 发布了其首款 AR 眼镜 Orion。

在这里插入图片描述

扎克伯格表示,Orion 致力于改变人与世界的交互方式,是有史以来最先进的 AR 眼镜,历经 10 年研发而成。它拥有最先进的 AR 显示屏、定制的硅芯片、碳化硅镜片、复杂的光波导 (waveguides)、uLED 投影仪等,多种技术加持让强大的 AR 体验能够在一副眼镜上运行,而所消耗的电力和重量仅为 MR 头显的一小部分。

在这里插入图片描述

简单来说,这种 AR 眼镜采用一种全新的显示架构,利用微型投影仪将光线投射到波导中,再将不同深度和大小的全息图投射到用户面前的世界,并由一块装在眼镜腿里的电池供电。例如,用户如果想与远方的朋友相聚,他们将以全息图的形式出现在客厅,就像真的在身旁一样。

值得一提的是,Orion 在镜框边缘嵌入了 7 个微型摄像头和传感器,并结合语音、眼动和手势追踪,配备 EMG 腕带,用户可以轻松地进行滑动、点击和滚动操作。例如,如果晨跑时想拍照,只需轻轻一按指尖,Orion 就能定格精彩瞬间。此外,只需轻敲手指,还能召唤纸牌游戏、国际象棋或全息乒乓球等娱乐活动。

英伟达创始人兼 CEO 黄仁勋都迫不及待试用啦!

在这里插入图片描述

最佳混合现实设备 Quest 3S,性价超高

继去年 Meta 在 Connect 大会上发布全球首款混合现实头显 Meta Quest 3 之后,Meta 今年推出了 Quest 3 的精简版本——Quest 3S。

在这里插入图片描述

扎克伯格表示,「Quest 3S 不仅性价比高,而且是目前市面上能买到的最佳混合现实设备!」它具备与 Quest 3 相似的核心功能,即高分辨率全彩混合现实,用户可以在物理世界和虚拟世界中「无缝穿越」,能够进行娱乐、健身、游戏、社交体验等一系列活动。不同的是,Quest 3S 改进了镜片,并在技术栈、有效分辨率和延迟等方面做了优化,其混合现实手部追踪软件表现更为出色。

混合现实的神奇之处在于,它将写实的空间带入元宇宙,让用户有一种身临其境的感觉,并在不同的体验间自由切换。比如,用户可以选择影院模式,把屏幕放大成一个电影院,获得最佳的剧场观看体验。

在现场演示中,扎克伯格展示了从 2D 移动应用到远程桌面的 PC 的沉浸式体验,用户可以打开屏幕并将其放置在任何位置,形成一个巨大的虚拟显示器,并进行工作。他提到,Meta 一直在与微软合作升级远程桌面功能,不久之后,这种功能或许就可以连接到 Windows 11 电脑上。

值得一提的是,Meta Quest 3S 以难以置信的价格提供超现实的体验,起价仅为 299.99 美元,将在 10 月 15 日上市。今年秋天购买 Quest 3S 的用户,还将获赠《Batman: Arkham Shadow》游戏的 VR 体验。

首个支持视觉任务的 Llama 模型,多模态且开源

除了重磅的硬件发布外,小扎还带来了 Llama 的更新,推出 Llama 3.2 模型。作为第一个支持视觉任务的 Llama 模型,Llama 3.2 能够同时理解图像和文本。其中包含适用于边缘和移动设备的中小型视觉模型 (11B 和 90B) 以及轻量级纯文本模型 (1B 和 3B),这两个类别均包括预训练版和指令微调版。值得一提的是,这些不同规格的模型均可通过 Meta AI 进行试用。

在这里插入图片描述

模型性能评估

研究人员在超过 150 个跨语言的基准数据集评估模型性能。结果显示,Llama 3.2 1B 和 3B 模型支持 128K tokens 的上下文长度,在遵循指令、总结、提示改写和工具使用等任务上,3B 模型优于 Gemma 2 2.6B 和 Phi 3.5-mini 模型,而 1B 模型则能够与 Gemma 模型一争高下。

在这里插入图片描述

此外,研究人员评估了模型在图像理解和视觉推理基准的性能。结果显示,Llama 3.2 11B 和 90B 视觉模型可以无缝替代相应的文本模型,同时在图像理解任务上超越了诸如 Claude 3 Haiku 之类的闭源模型。

在这里插入图片描述

轻量级模型训练
对于 Llama 3.2 1B 和 3B 模型,研究人员采用剪枝和蒸馏两种方法,从 8B/70B 模型中提炼出高效的 1B/3B 模型。

具体而言,研究人员将 Llama 3.1 的 8B 和 70B 模型的 Logit Date 纳入预训练阶段,使用这些较大模型的输出 (logit date) 作为 token 级别的目标,进行结构化剪枝。剪枝完成后,研究人员利用知识蒸馏来恢复模型的性能。

Llama 3.2 1B 和 3B 模型剪枝和蒸馏示意图

模型演示 demo

视觉模型训练
Llama 3.2 的训练流程分为多个阶段。首先,从预训练的 Llama 3.1 文本模型开始。接着,研究人员添加图像适配器和编码器,并在大规模的噪声(图像、文本)配对数据上进行预训练。然后,在中等规模的高质量域内和知识增强的(图像、文本)配对数据上进行训练。

在后期训练中,研究人员采用与文本模型相似的方法,通过多轮对齐来进行监督微调、拒绝采样和直接偏好优化。研究人员使用 Llama 3.1 模型生成合成数据,对域内图像的问题和答案进行过滤和增强,并使用奖励模型对所有候选答案进行排序,从而确保高质量的微调数据。

此外,研究人员还引入了安全缓解数据,以打造一个兼具高度安全性和实用性的模型。最终,能够同时理解图像和文本的 Llama 3.2 模型诞生,标志着 Llama 模型在通向更丰富代理能力的道路上又迈出了重要的一步。

视觉模型演示

本地部署模型及时且安全
研究人员指出本地运行 Llama 3.2 模型有两大优势。首先,在响应速度上,由于处理全部在本地完成,提示和响应的速度可以达到接近即时的效果。

其次,在隐私安全上,本地运行模型无需将消息和日历等数据发送到云端,保障了用户隐私,使应用程序更加私密。通过本地处理,应用程序可以明确控制哪些查询留在设备上,哪些查询需要交由云端更大的模型来处理。

手机写作助手 demo 演示

坚守开源初心,模型部署更加简化和高效

Meta 始终坚守开源初心,为了大幅简化开发者在不同环境(包括单节点、内部部署、云端和设备)中使用 Llama 模型的流程,实现检索增强生成 (RAG) 和工具支持型应用的一键部署,并集成安全功能,Meta 宣布将分享首批官方 Llama Stack 发行版。

在这里插入图片描述

据官方介绍,Llama 3.2 模型将在 llama.com 和 Hugging Face 上提供下载,并将在包括 AMD、AWS、Databricks、Dell、Google Cloud、Groq、IBM、Intel、Microsoft Azure、NVIDIA、Oracle Cloud、Snowflake 等在内的合作伙伴平台上提供即时开发支持。

作为一贯的开源倡导者,扎克伯格曾在与黄仁勋的对谈中介绍道,「Meta 从开源生态中获益,已节省数十亿美元」。而 Llama 无疑是其打造开源生态的重要触手,Llama 3.2 进一步向视觉任务拓展,实现多模态,也势必将为其开源生态再添助益。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/883481.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

xpath在爬虫中的应用、xpath插件的安装及使用

安装 1、打开谷歌浏览器进入扩展程序安装页面(右上角会有"开发者模式按钮")默认是关闭的,当安装此插件时需要把开发者模式打开。 2、下载下来的xpath_helper是zip格式的,需要解压缩即可安装。 3、重启浏览器,再次点击扩展程序即…

解密 Python 的 staticmethod 函数:静态方法的全面解析!

更多Python学习内容:ipengtao.com 在 Python 中,staticmethod 函数是一种装饰器,用于将函数转换为静态方法。静态方法与实例方法和类方法不同,它们不需要类实例作为第一个参数,也不需要类作为第一个参数,因…

微型丝杆的行业应用!

微型丝杆作为一种高精度、小尺寸的机械传动元件,在现代工业中扮演着重要角色,在多个行业中都有广泛的应用‌,主要包括以下几个方面: 1、医疗设备:在手术机器人中,微型丝杆能够实现精准定位和操作&#xff0…

二叉树进阶

目录 1. 二叉搜索树实现 1.1 二叉搜索树概念 2.2 二叉搜索树操作 ​编辑 ​编辑 2.3 二叉搜索树的实现 2.3.0 Destroy() 析构 2.3.1 Insert()插入 2.3.2 InOrder() 打印搜索二叉树 ​编辑​编辑 2.3.3 Find() 查找 …

GaussDB关键技术原理:高弹性(五)

书接上文GaussDB关键技术原理:高弹性(四)从扩容流程框架方面对hashbucket扩容技术进行了解读,本篇将从日志多流和事务相关方面继续介绍GaussDB高弹性技术。 目录 4.2 日志多流 4.2.1 日志多流总体流程 4.2.2 基线数据传输 4.…

fiddler抓包07_抓IOS手机请求

课程大纲 前提:电脑和手机连接同一个局域网 (土小帽电脑和手机都连了自己的无线网“tuxiaomao”。) 原理如下: 电脑浏览器抓包时,直接就是本机网络。手机想被电脑Fiddler抓包,就要把Fiddler变成手机和网络…

PMP与CMMI:两种管理方法的对比

PMP与CMMI:两种管理方法的对比 PMP:专注于项目管理CMMI:组织过程改进的框架总结:互补而非替代 在现代企业管理中,项目管理和组织能力成熟度模型集成(CMMI)是两个经常被提及的概念。虽然它们都是…

vue3中echarts柱状图横轴文字太多放不下怎么解决

问题:在做数据展示的时候,使用的是echarts,遇到了个问题,就是数据过多,但是设置的x轴的文字名称又太长,往往左边第一个或右边最后一个的名称展示不全,只有半个。 从网上找到了几种办法&#xff…

项目实战:Qt+OSG爆破动力学仿真三维引擎测试工具v1.1.0(加载.K模型,子弹轨迹模拟动画,支持windows、linux、国产麒麟系统)

若该文为原创文章,转载请注明出处 本文章博客地址:https://hpzwl.blog.csdn.net/article/details/142454993 长沙红胖子Qt(长沙创微智科)博文大全:开发技术集合(包含Qt实用技术、树莓派、三维、OpenCV、Op…

Vue74 路由的props配置

笔记 ​ 作用:让路由组件更方便的收到参数 {name:xiangqing,path:detail/:id,component:Detail,//第一种写法:props值为对象,该对象中所有的key-value的组合最终都会通过props传给Detail组件// props:{a:900}//第二种写法:props…

edu某智慧平台 ExpDownloadService.aspx接口任意文件读取漏洞复现 [附POC]

文章目录 edu某智慧平台 ExpDownloadService.aspx接口任意文件读取漏洞复现 [附POC]0x01 前言0x02 漏洞环境0x03 漏洞复现1.访问漏洞环境2.构造POC3.复现edu某智慧平台 ExpDownloadService.aspx接口任意文件读取漏洞复现 [附POC] 0x01 前言 免责声明:请勿利用文章内的相关技…

统信服务器操作系统进入【单用户模式】

统信服务器操作系统D版、E版、A版进入单用户模式的方式。 文章目录 前言一、问题现象二、问题原因三、解决方案1. D版问题解决方案2. E版及A版问题解决方案前言 D版又称企业版、E版又称欧拉版、A版又称龙蜥版。 单用户模式主要是在 grub2 引导时编辑内核引导,一般用于修改用…

makefile和CMakeLists/C++包管理器

make 大家可能会很奇怪,都什么年代了,还学makefile,cmake都有些过时了,为什么还要再学这个呢? 我是这么看待这个问题的,cmake跨平台性还是很有有优势的,有着多年积累的底蕴,借助大模…

英伟达:AI时代的领跑者,引领智能计算的未来@附149页PDF文件下载

在人工智能的浪潮中,英伟达(NVIDIA)以其卓越的GPU技术,成为了这个时代的领跑者。从游戏显卡的霸主到AI计算的领导者,英伟达的转型之路充满了创新与突破。今天,我们将深入探讨2024年英伟达如何通过其战略布局…

Apache CVE-2021-41773 漏洞攻略

漏洞简介 该漏洞是由于Apache HTTP Server 2.4.49版本存在⽬录穿越漏洞,在路径穿越⽬录 <Directory/>Require all granted</Directory>允许被访问的的情况下&#xff08;默认开启&#xff09;&#xff0c;攻击者可利⽤该路径穿越漏洞读取到Web⽬录之外的其他⽂件在…

DPDK 简易应用开发之路 2:UDP数据包发送及实现

本机环境为 Ubuntu20.04 &#xff0c;dpdk-stable-20.11.10 发送数据包的通用步骤 初始化DPDK环境&#xff1a; 调用 rte_eal_init() 来初始化DPDK的EAL&#xff08;环境抽象层&#xff09;&#xff0c;这是所有DPDK应用程序的第一步&#xff0c;用于初始化硬件、内存和逻辑核…

[Linux]:线程(一)

✨✨ 欢迎大家来到贝蒂大讲堂✨✨ &#x1f388;&#x1f388;养成好习惯&#xff0c;先赞后看哦~&#x1f388;&#x1f388; 所属专栏&#xff1a;Linux学习 贝蒂的主页&#xff1a;Betty’s blog 1. 初识线程 1.1 线程的概念 在操作系统中&#xff0c;进程与线程一直是我们…

简单了解Redis(初识阶段)

1.认识Redis 对于Redis有一个很重要的点就是&#xff0c;它存储数据是在内存中存储的。 但是对于单机程序&#xff0c;直接通过变量存储数据的方式是更优的&#xff0c;在分布式系统下 Redis才能发挥威力 因为进程是有隔离性的&#xff0c;Redis可以基于网络&#xff0c;把进…

CentOS 7 YUM源不可用

CentOS 7 操作系统在2024年6月30日后将停止官方维护&#xff0c;并且官方提供的YUM源将不再可用。 修改&#xff1a;nano /etc/yum.repos.d/CentOS-Base.repo # CentOS-Base.repo [base] nameCentOS-$releasever - Base baseurlhttp://mirrors.aliyun.com/centos/$rel…

前端——flex布局

flex布局——弹性布局 传统布局: 浮动 定位 行内块等 1. flex布局 方法简单 不需要计算 能自动分配父级里面的子元素排版 对齐方式等等 >flex布局 可以适应不同屏幕布局 2. flex布局使用 - 给父级盒子 display: flex 开启弹性盒模型 - 子元素就会默…