Observability:利用 GCP Vertex AI 集成提升 LLM 可观察性

作者:来自 Elastic Ishleen Kaur•Muthukumar Paramasivam

随着组织越来越多地将 LLM 用于内容创建、检索增强生成 (Retrieval-Augmented Generation - RAG) 和数据分析等 AI 应用,SRE 和开发人员面临着新的挑战。监控工作流、分析输入和输出、管理查询延迟和控制成本等任务变得至关重要。LLM 可观察性有助于解决这些问题,它提供了有关这些模型如何执行的清晰见解,使团队能够快速识别瓶颈、优化配置并提高可靠性。有了更好的可观察性,SRE 可以自信地扩展 LLM 应用程序,尤其是在 Google Cloud Vertex AI 等平台上

使用 Vertex AI 的 AI 驱动应用程序的可观察性需求

利用 AI 模型会对 AI 驱动应用程序的可观察性和监控产生独特的需求。使用 LLM 带来的一些挑战与调用 LLM 的高成本、LLM 响应的质量和安全性以及 LLM 的性能、可靠性和可用性有关。

缺乏对 LLM 可观察性数据的可见性可能会使 SREs 和 DevOps 团队更难确保其 AI 驱动的应用程序满足其服务级别目标,即 AI 生成内容的可靠性、性能、成本和质量,并拥有足够的遥测数据来排除相关问题。因此,强大的 LLM 可观察性和实时检测托管在 Google Cloud Vertex AI 上的模型性能异常对于 AI 驱动应用程序的成功至关重要。

根据其 LLM 应用程序的需求,客户可以使用托管在 Vertex AI 上的越来越多的模型,例如 Gemini 1.5 Pro、用于图像生成的 Imagen 和用于文本的 PaLM 2。每个模型都在特定领域表现出色,并以语言、音频、视觉、代码等某些模式生成内容。没有两个模型是相同的,每个模型都有特定的性能特征,因此服务运营商能够跟踪每个模型的个体性能、行为和成本非常重要。

Elastic 与 Google Cloud Vertex AI 的新集成

在 Elastic,我们很高兴地宣布,我们现在支持通过 Google Cloud Vertex AI 集成监控托管在 Google Cloud 中的大型语言模型 (Large Language Models - LLMs)。这种集成弥合了 Elastic 强大的搜索和可观察性功能与 Vertex AI 尖端的生成式 AI 模型之间的差距,使组织能够获得更深入的见解并提升客户体验 —— 所有这些都在 Elastic 生态系统中实现。

通过提供对 Vertex AI 模型的运行性能(包括资源消耗、预测准确性和系统可靠性)的深入洞察,这种 Vertex AI 集成使用户能够体验增强的 LLM 可观察性。通过利用这些数据,组织可以优化资源使用率,识别和解决性能瓶颈,并提高模型效率和准确性。

使用 GCP Vertex AI 指标解锁洞察

Elastic GCP Vertex AI Integration 从托管在 Vertex AI 上的模型中收集各种指标,使用户能够有效地监控、分析和优化他们的 AI 部署。这些指标可分为以下几类:

1. 预测指标

预测指标提供有关模型使用情况、性能瓶颈和可靠性的关键洞察。这些指标有助于确保平稳运行、优化响应时间并保持稳健、准确的预测。

  • 按端点划分的预测计数:衡量不同端点的预测总数。
  • 预测延迟:提供有关生成预测所需时间的洞察,使用户能够识别性能瓶颈。
  • 预测错误:监控端点失败预测的数量。

2. 模型性能指标

模型性能指标提供了有关部署效率和响应能力的重要见解。这些指标有助于优化模型性能并确保可靠的操作。

  • 模型使用情况:跟踪不同模型部署之间的使用情况分布。
  • Token 使用情况:跟踪每个模型部署所消耗的 token 数量,这对于了解模型效率至关重要。

  • 调用率:跟踪每个模型部署的调用频率。
  • 模型调用延迟:测量调用模型所需的时间,帮助诊断性能问题。

3. 资源利用率指标

资源利用率指标对于监控资源效率和工作负载性能至关重要。它们有助于优化基础设施、防止瓶颈并确保 AI 部署的顺利运行。

  • CPU 利用率:监控 CPU 使用率,以确保为 AI 工作负载提供最佳资源分配。
  • 内存使用率:跟踪所有模型部署中消耗的内存。
  • 网络使用率:测量发送和接收的字节数,提供对模型交互期间数据传输的洞察。

4. 概览指标

这些指标概述了 GCP Vertex AI 中部署的模型。它们对于跟踪整体性能、优化效率和识别部署中的潜在问题至关重要。

  • 总调用次数:所有模型和端点的预测调用总数,提供活动的全面视图。
  • 总 token 数:所有模型交互中处理的令牌总数,提供对资源利用率和效率的洞察。
  • 总错误数:所有模型和端点中遇到的错误总数,帮助识别可靠性问题。

所有指标都可以按区域进行过滤,提供本地化洞察以便更好地进行分析。

注意:Vertex AI 集成提供了对两种部署模型的全面可见性:预配置吞吐量(容量预先分配)和按需付费(资源按需消耗)。

Vertex AI 概览仪表板

结论

GCP Vertex AI 集成代表着在增强 GCP Vertex AI 用户的 LLM 可观察性方面迈出了重要一步。通过解锁大量可操作数据,组织可以评估 LLM 的运行状况、性能和成本并解决运营问题,确保 AI 驱动应用程序的可扩展性和准确性。

现在你知道 GCP Vertex AI 集成如何增强 LLM 可观察性,现在轮到你尝试此集成了。启动 Elastic Cloud,并开始监控托管在 GCP Vertex AI 上的 LLM 应用程序。

原文:Elevate LLM Observability with GCP Vertex AI Integration — Elastic Observability Labs

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/954103.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

WEB攻防-通用漏洞_XSS跨站_权限维持_捆绑钓鱼_浏览器漏洞

目录 XSS的分类 XSS跨站-后台植入Cookie&表单劫持 【例1】:利用beef或xss平台实时监控Cookie等凭据实现权限维持 【例2】:XSS-Flash钓鱼配合MSF捆绑上线 【例3】:XSS-浏览器网马配合MSF访问上线 XSS的分类 反射型(非持久…

21、Transformer Masked loss原理精讲及其PyTorch逐行实现

1. Transformer结构图 2. python import torch import torch.nn as nn import torch.nn.functional as Ftorch.set_printoptions(precision3, sci_modeFalse)if __name__ "__main__":run_code 0batch_size 2seq_length 3vocab_size 4logits torch.randn(batch…

上传自己的镜像到docker hub详细教程

上传自己的镜像到docker hub详细教程 本博客通B站视频一致: 上传自己的镜像到docker hub详细教程 1. 登录自己的hub.docker.com的账号 docker hub仓库 2. 点击Repositories,跳转到创建仓库页面 3. 点击Create a repository 创建repository&#xff0c…

高级软件工程-复习

高级软件工程复习 坐标国科大,下面是老师说的考试重点。 Ruby编程语言的一些特征需要了解要能读得懂Ruby程序Git的基本命令操作知道Rails的MVC工作机理需要清楚,Model, Controller, View各司什么职责明白BDD的User Story需要会写,SMART要求能…

初学stm32 --- SPI驱动25Q128 NOR Flash

目录 SPI介绍 SPI结构框图介绍 SPI外设对应的引脚 SPI数据发送与接收 SPI工作原理 SPI 全双工模式的通信机制 从机返回主机之前保存的数据 SPI工作模式介绍 SPI相关寄存器介绍(F1 / F4 / F7) SPI控制寄存器1(SPI_CR1) SPI状…

yum系统报错:SyntaxError: multiple exception types must be parenthesized

执行yum相关步骤报错如下: File "/usr/bin/yum", line 30except KeyboardInterrupt, e:^^^^^^^^^^^^^^^^^^^^ SyntaxError: multiple exception types must be parenthesized原因:python解释器版本错误,yum运行版本为python 2.7&am…

STM32第5章、IWDG

一、简介 IWDG:全称是Independent watchdog,即独立看门狗。本质上是一个能产生系统复位信号的计数器。 特性: 是一个递减计数器。 时钟信号由独立的RC振荡器提供,可在待机和停止模式下运行。 看门狗被激活后,当递减计…

快速上手 HarmonyOS 应用开发

一、DevEco Studio 安装与配置 1. DevEco Studio 简介 DevEco Studio 是 HarmonyOS 的一站式集成开发环境(IDE),提供了丰富的工具和功能,支持 HarmonyOS 应用开发的全流程。 2. DevEco Studio 下载与安装 下载地址&#xff1a…

ThinkPHP 8的一对一关联

【图书介绍】《ThinkPHP 8高效构建Web应用》-CSDN博客 《2025新书 ThinkPHP 8高效构建Web应用 编程与应用开发丛书 夏磊 清华大学出版社教材书籍 9787302678236 ThinkPHP 8高效构建Web应用》【摘要 书评 试读】- 京东图书 使用VS Code开发ThinkPHP项目-CSDN博客 编程与应用开…

像JSONDecodeError: Extra data: line 2 column 1 (char 134)这样的问题怎么解决

问题介绍 今天处理返回的 JSON 的时候,出现了下面这样的问题: 处理这种问题的时候,首先你要看一下当前的字符串格式是啥样的,比如我查看后发现是下面这样的: 会发现这个字符串中间没有逗号,也就是此时的J…

国产编辑器EverEdit - 扩展脚本:新建同类型文件(避免编程学习者反复新建保存练习文件)

1 扩展脚本:在当前文件目录下新建同类型文件 1.1 应用场景 用户在进行编程语言学习时,比如:Python,经常做完一个小练习后,又需要新建一个文件,在新建文件的时候,不但要选择文件类型&#xff0c…

Java+Maven+GDAL

下载已经编译好的压缩包,下载地址 解压 jar 包 release-1930-x64-dev.zip\release-1930-x64\bin\gdal\java 目录下 打成Maven依赖 mvn install:install-file -Dfilegdal-3.10.1.jar -DgroupIdorg.gdal -DartifactIdgdal -Dversion3.10.1 -Dpackagingjar -Dgener…

个人主页搭建全流程(Nginx部署+SSL配置+DCDN加速)

前言 最近开始准备秋招,打算做一个个人主页,以便在秋招市场上更有竞争力。 目前,现有的一些搭建主页的博文教程存在以下一些问题: 使用Github Page进行部署,这在国内访问容易受阻使用宝塔面板等框架,功能…

【Linux探索学习】第二十五弹——动静态库:Linux 中静态库与动态库的详细解析

Linux学习笔记: https://blog.csdn.net/2301_80220607/category_12805278.html?spm1001.2014.3001.5482 前言: 在 Linux 系统中,静态库和动态库是开发中常见的两种库文件类型。它们在编译、链接、内存管理以及程序的性能和可维护性方面有着…

【Rust自学】12.4. 重构 Pt.2:错误处理

12.4.0. 写在正文之前 第12章要做一个实例的项目——一个命令行程序。这个程序是一个grep(Global Regular Expression Print),是一个全局正则搜索和输出的工具。它的功能是在指定的文件中搜索出指定的文字。 这个项目分为这么几步: 接收命令行参数读取…

算法-贪心算法简单介绍

下面是贪心算法视频课的导学内容. 目录 1. 什么是贪心算法?2. 贪心算法简单的三个例子:1. 找零问题2. 最小路径和问题3. 背包问题 3. 贪心算法的特点4. 贪心算法学习的方式? 1. 什么是贪心算法? 简单来说, 我们称以局部最优进而使得全局最优的一种思想实现出来的算法为贪心…

Node.js - Express框架

1. 介绍 Express 是一个基于 Node.js 的 Web 应用程序框架,主要用于快速、简便地构建 Web 应用程序 和 API。它是目前最流行的 Node.js Web 框架之一,具有轻量级、灵活和功能丰富的特点。 核心概念包括路由,中间件,请求与响应&a…

day08_Kafka

文章目录 day08_Kafka课程笔记一、今日课程内容一、消息队列(了解)**为什么消息队列就像是“数据的快递员”?****实际意义**1、产生背景2、消息队列介绍2.1 常见的消息队列产品2.2 应用场景2.3 消息队列中两种消息模型 二、Kafka的基本介绍1、…

459. 重复的子字符串【力扣】——kmp拼接字符串解法

常规kmp解答 class Solution { public:void getNext(int *next,string s){int j0;next[0]0;for(int i1;i<s.size();i){while(j>0 && s[i]!s[j]){jnext[j-1];}if(s[i]s[j]) j;next[i]j;}}bool repeatedSubstringPattern(string s) {if(s.size()0) return false;i…

浅谈云计算06 | 云管理系统架构

云管理系统架构 一、云管理系统架构&#xff08;一&#xff09;远程管理系统&#xff08;二&#xff09;资源管理系统&#xff08;三&#xff09;SLA 管理系统&#xff08;四&#xff09;计费管理系统 二、安全与可靠性保障&#xff08;一&#xff09;数据安全防线&#xff08;…