斯坦福大学推出了 Octopus v2,这是一种突破性的设备上语言模型,旨在解决与现有模型相关的延迟、准确性和隐私问题。
NSDT工具推荐: Three.js AI纹理开发包 - YOLO合成数据生成器 - GLTF/GLB在线编辑 - 3D模型格式在线转换 - 可编程3D场景编辑器 - REVIT导出3D模型插件 - 3D模型语义搜索引擎 - Three.js虚拟轴心开发包 - 3D模型在线减面 - STL模型在线切割
Octopus v2 显着降低了设备上应用程序的延迟并提高了准确性,在效率和速度上超越了 GPT-4,同时将上下文长度缩短了 95%。
该方法涉及在专注于 Android API 调用的定制数据集上对源自 Gemma 2B 的 20 亿个参数模型进行微调,并结合功能令牌以实现精确的函数调用。
Octopus v2 在函数调用任务中实现了高达 99.524% 的准确率,每次调用的延迟最小化至 0.38 秒,并且仅需要 5% 的上下文长度进行处理。
主要人工智能新闻
在人工智能 (AI) 领域,特别是在大型语言模型 (LLM) 领域,寻求模型功效与隐私、成本和设备兼容性等现实世界约束之间的平衡一直是一个紧迫的问题。 虽然基于云的模型拥有极高的准确性,但它们对持续互联网连接的依赖、潜在的隐私漏洞和高昂的成本带来了巨大的挑战。 此外,由于硬件限制,在边缘设备上部署这些模型会导致维持最佳延迟和准确性的复杂性。
人们已经做出了许多努力,例如 Gemma-2B、Gemma-7B 和 Llama-7B,以及 Llama cpp 和 MLC LLM 等框架,以提高人工智能的效率和可访问性。 NexusRaven、Toolformer 和 ToolAlpaca 等举措突破了人工智能中函数调用的界限,努力模仿 GPT-4 的有效性。 LoRA 等技术简化了 GPU 限制下的微调。 然而,这些努力克服了一个关键瓶颈:实现模型大小和运行效率的和谐结合,特别是对于资源受限设备上的低延迟、高精度应用程序。
斯坦福大学的最新创新 Octopus v2 是一种先进的设备上语言模型,旨在解决与当前 LLM 申请相关的延迟、准确性和隐私等普遍挑战。 与前代产品不同,Octopus v2 显着降低了设备上应用程序的延迟并提高了准确性。 其突破性的方法围绕功能令牌的微调,实现精确的函数调用并在效率和速度上超越 GPT-4,同时将上下文长度大幅削减 95%。
Octopus v2 背后的方法需要在精心策划的数据集(专注于 Android API 调用)上对源自 Google DeepMind 的 Gemma 2B 的 20 亿个参数模型进行微调。 该数据集包含正面和负面示例以提高函数调用精度。 该训练方案结合了完整模型和低秩适应 (LoRA) 技术,以优化设备上执行的性能。 创新的关键在于在微调过程中引入功能令牌,这大大减少了延迟和上下文长度要求。 这一突破使得 Octopus v2 能够在边缘设备上的函数调用方面实现卓越的准确性和效率,而无需大量的计算资源。
在基准评估中,Octopus v2 在函数调用任务中惊人地达到了 99.524% 的准确率,远远优于 GPT-4。 此外,该模型的响应时间显着缩短,每次调用的延迟降至仅 0.38 秒,与之前的模型相比提高了 35 倍。 此外,Octopus v2 只需要 5% 的上下文长度即可进行处理,突显了其以无与伦比的效率处理设备上操作的能力。 这些指标突显了 Octopus v2 在缓解操作需求方面取得的变革性进展,同时保持卓越的性能水平,巩固了其作为设备上语言模型技术的巨大进步的地位。
斯坦福大学的 Octopus v2 代表了设备上语言模型技术的重大飞跃。 它能够大幅减少延迟和上下文长度,同时提高准确性,这对各个市场具有深远的影响,特别是那些依赖具有严格隐私和效率要求的人工智能应用程序的市场。 Octopus v2 的进步有望彻底改变设备上人工智能的格局,提供无与伦比的性能,并为跨行业的创新解决方案铺平道路。
原文链接:Octopus v2设备上的LLM - BimAnt