Octopus v2:斯坦福的嵌入设备专用大模型

斯坦福大学推出了 Octopus v2,这是一种突破性的设备上语言模型,旨在解决与现有模型相关的延迟、准确性和隐私问题。

 NSDT工具推荐: Three.js AI纹理开发包 - YOLO合成数据生成器 - GLTF/GLB在线编辑 - 3D模型格式在线转换 - 可编程3D场景编辑器 - REVIT导出3D模型插件 - 3D模型语义搜索引擎 - Three.js虚拟轴心开发包 - 3D模型在线减面 - STL模型在线切割

Octopus v2 显着降低了设备上应用程序的延迟并提高了准确性,在效率和速度上超越了 GPT-4,同时将上下文长度缩短了 95%。

该方法涉及在专注于 Android API 调用的定制数据集上对源自 Gemma 2B 的 20 亿个参数模型进行微调,并结合功能令牌以实现精确的函数调用。

Octopus v2 在函数调用任务中实现了高达 99.524% 的准确率,每次调用的延迟最小化至 0.38 秒,并且仅需要 5% 的上下文长度进行处理。

主要人工智能新闻

在人工智能 (AI) 领域,特别是在大型语言模型 (LLM) 领域,寻求模型功效与隐私、成本和设备兼容性等现实世界约束之间的平衡一直是一个紧迫的问题。 虽然基于云的模型拥有极高的准确性,但它们对持续互联网连接的依赖、潜在的隐私漏洞和高昂的成本带来了巨大的挑战。 此外,由于硬件限制,在边缘设备上部署这些模型会导致维持最佳延迟和准确性的复杂性。

人们已经做出了许多努力,例如 Gemma-2B、Gemma-7B 和 Llama-7B,以及 Llama cpp 和 MLC LLM 等框架,以提高人工智能的效率和可访问性。 NexusRaven、Toolformer 和 ToolAlpaca 等举措突破了人工智能中函数调用的界限,努力模仿 GPT-4 的有效性。 LoRA 等技术简化了 GPU 限制下的微调。 然而,这些努力克服了一个关键瓶颈:实现模型大小和运行效率的和谐结合,特别是对于资源受限设备上的低延迟、高精度应用程序。

斯坦福大学的最新创新 Octopus v2 是一种先进的设备上语言模型,旨在解决与当前 LLM 申请相关的延迟、准确性和隐私等普遍挑战。 与前代产品不同,Octopus v2 显着降低了设备上应用程序的延迟并提高了准确性。 其突破性的方法围绕功能令牌的微调,实现精确的函数调用并在效率和速度上超越 GPT-4,同时将上下文长度大幅削减 95%。

Octopus v2 背后的方法需要在精心策划的数据集(专注于 Android API 调用)上对源自 Google DeepMind 的 Gemma 2B 的 20 亿个参数模型进行微调。 该数据集包含正面和负面示例以提高函数调用精度。 该训练方案结合了完整模型和低秩适应 (LoRA) 技术,以优化设备上执行的性能。 创新的关键在于在微调过程中引入功能令牌,这大大减少了延迟和上下文长度要求。 这一突破使得 Octopus v2 能够在边缘设备上的函数调用方面实现卓越的准确性和效率,而无需大量的计算资源。

在基准评估中,Octopus v2 在函数调用任务中惊人地达到了 99.524% 的准确率,远远优于 GPT-4。 此外,该模型的响应时间显着缩短,每次调用的延迟降至仅 0.38 秒,与之前的模型相比提高了 35 倍。 此外,Octopus v2 只需要 5% 的上下文长度即可进行处理,突显了其以无与伦比的效率处理设备上操作的能力。 这些指标突显了 Octopus v2 在缓解操作需求方面取得的变革性进展,同时保持卓越的性能水平,巩固了其作为设备上语言模型技术的巨大进步的地位。

斯坦福大学的 Octopus v2 代表了设备上语言模型技术的重大飞跃。 它能够大幅减少延迟和上下文长度,同时提高准确性,这对各个市场具有深远的影响,特别是那些依赖具有严格隐私和效率要求的人工智能应用程序的市场。 Octopus v2 的进步有望彻底改变设备上人工智能的格局,提供无与伦比的性能,并为跨行业的创新解决方案铺平道路。


原文链接:Octopus v2设备上的LLM - BimAnt

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/557854.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

源码篇--Nacos服务--中章(1):Nacos服务端的启动

文章目录 前言一、Nacos Console 启动入口:二、启动过程:2.1 容器启动监听器:2.1.1 调整启动标识为正在启动状态:2.1.2 环境准备阶段:2.1.3 容器环境准备:2.1.4 自定义的环境变量 设置:2.1.5 服…

Spectre-v2 以及 Linux Retpoline技术简介

文章目录 前言一、Executive Summary1.1 Spectre-v2: Branch Predictor Poisoning1.2 Mitigating Spectre-v2 with Retpolines1.3 Retpoline Concept 二、BackgroundExploit Composition 三、(Un-)Directing Speculative Execution四、Construction (x86)4.1 Speculation Barri…

测试人员通常遇到的“坑”

网上看到一个帖子,从事多年的测试从业者,吐槽测试过程中遇到的“坑”,感觉比较有意思,我在工作当中也遇到通常的问题,看得出这位网友比较喜欢总结,帖子地址奉上,有兴趣的可以浏览一下&#xff1…

bug(警告):[vue-router] Duplicate named routes definition: …

查看警告:[vue-router] Duplicate named routes definition——翻译[vue-router]重复命名路由定义 小编劝诫:当我们在开发过程中警告也一定不要忽略,虽然你在本地跑代码时这些警告影响项目的正常运行,但是会让你产生误区&#xff…

大模型日报|今日必读的8篇大模型论文

大家好,今日必读的大模型论文来啦! 1.EdgeFusion:端侧文本到图像生成,只需不到一秒 用于文本到图像生成的稳定扩散(SD)技术需要大量计算,这对其实际应用构成了重大障碍。为此,最近…

Oracle進階SQLDay03

一、函數進階復習 1、行轉列 select 用水儿量(噸) 统计项, sum(case when t_account.month01 then USENUM end) 一月, sum(case when t_account.month02 then USENUM end) 二月, sum(case when t_account.month03 then USENUM end) 三月, sum(case when …

STM32学习和实践笔记(15):STM32中断系统

中断概念 CPU执行程序时,由于发生了某种随机的事件(外部或内部),引起CPU暂 时中断正在运行的程序,转去执行一段特殊的服务程序(中断服务子程序 或中断处理程序),以处理该事件,该事件处理完后又返回被中断的程序 继…

飞桨Ai(二)paddle使用CPU版本可以正常识别,切换为GPU版本时无法识别结果

一、问题描述: 刚开始用paddle的CPU版本,对训练好的模型进行推理,正常识别出想要的结果后来尝试使用paddle的GPU版本,然后发现识别出来是空的 二、系统思路: 最终系统环境如下: 系统:win10 …

有哪些公认好用且免费的云渲染网渲平台?渲染100邀请码1a12

现在云渲染是越来越火了,无论是在建筑设计、影视动画还是效果图行业都有它的身影,云渲染能缩短制作周期,提高工作效率,那么市面上有哪些公认好用且免费的云渲染平台呢?这次我们来了解下。 首先,我们来看看有…

vulfocus靶场tomcat-cve_2017_12615 文件上传

7.0.0-7.0.81 影响版本 Windows上的Apache Tomcat如果开启PUT方法(默认关闭),则存在此漏洞,攻击者可以利用该漏洞上传JSP文件,从而导致远程代码执行。 Tomcat 是一个小型的轻量级应用服务器,在中小型系统和并发访问用户不是很多…

「GO基础」在Windows上配置VS Code GO语言开发环境

💝💝💝欢迎莅临我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。 推荐:「stormsha的主页」…

查看linux的主机配置脚本

废话不说 直接上指令 curl -Lso- bench.sh | bash 等待后,结果如图: 使用后没有问题,看情况使用 出事概不负责 介意勿用!!!

LD-Pruner、EdgeFusion(On-Device T2I)、FreeDiff、TextCenGen、MemLLM

本文首发于公众号:机器感知 https://mp.weixin.qq.com/s/KiyNfwYWU-wBiCO-hE9qkA 苏 The devil is in the object boundary: towards annotation-free instance segmentation using Foundation Models Foundation models, pre-trained on a large amount of data…

Windows系统下安装paddle

开始使用_飞桨-源于产业实践的开源深度学习平台 (paddlepaddle.org.cn) 命令行下: python -m pip install --upgrade pip --user python -m pip install paddlepaddle2.6.1 -i https://pypi.tuna.tsinghua.edu.cn/simple 报异常 ERROR: Could not install packa…

Jmeter 测试Dubbo接口-实例

1、Dubbo插件准备 ①把jmeter-plugins-dubbo-2.7.4.1-jar-with-dependencies.jar包放在D:\apache-jmeter-5.5\lib\ext目录 ②重新打开Jmeter客户端 在线程组-添加-取样器-dubbo simple,添加dubbo接口请求 2、Jmeter测试lottery接口 ①配置zookeeper参数 由于dub…

windows和虚拟机互传文件

在虚拟机中设置共享文件夹 操作方法:打开VMware–>虚拟机–>设置–>选项–>共享文件夹(见下图),大家在共享文件夹当中就可以把Windows当中的D盘或者其它盘共享到虚拟机中。比如我就是将D盘和E盘共享到了虚拟机中。 共…

【Vue】实现显示输入框字符长度

<div style"float: right; margin-right: 10px"><el-popover placement"top-start" width"200" trigger"hover" :content"当前输入的内容字节长度为&#xff1a; this.byteLength &#xff0c;剩余可输入的字节长度和最…

学校管网的仿写

工字形布局完成 效果 代码部分 在这里插入代码片 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta http-equiv"X-UA-Compatible" content"IEedge"><meta name"viewport…

某书Frida检测绕过记录

某书Frida检测绕过记录 前言Frida启动APPHook android_dlopen_ext查看加载的库分析libmsaoaidsec.soFrida检测绕过后记 前言 本来想要分析请求参数加密过程&#xff0c;结果发现APP做了Frida检测&#xff0c;于是记录一下绕过姿势(暴力但有用) Frida版本&#xff1a;16.2.1 AP…

ctfhub-ssrf(2)

1.URL Bypass 题目提示:请求的URL中必须包含http://notfound.ctfhub.com&#xff0c;来尝试利用URL的一些特殊地方绕过这个限制吧 打开环境发现URL中必须包含http://notfound.ctfhub.com&#xff0c;先按照之前的经验查看127.0.0.1/flag.php,发现没什么反应&#xff0c;按照题…