作者:来自 Elastic Ishleen Kaur•Muthukumar Paramasivam
随着组织越来越多地将 LLM 用于内容创建、检索增强生成 (Retrieval-Augmented Generation - RAG) 和数据分析等 AI 应用,SRE 和开发人员面临着新的挑战。监控工作流、分析输入和输出、管理查询延迟和控制成本等任务变得至关重要。LLM 可观察性有助于解决这些问题,它提供了有关这些模型如何执行的清晰见解,使团队能够快速识别瓶颈、优化配置并提高可靠性。有了更好的可观察性,SRE 可以自信地扩展 LLM 应用程序,尤其是在 Google Cloud Vertex AI 等平台上
使用 Vertex AI 的 AI 驱动应用程序的可观察性需求
利用 AI 模型会对 AI 驱动应用程序的可观察性和监控产生独特的需求。使用 LLM 带来的一些挑战与调用 LLM 的高成本、LLM 响应的质量和安全性以及 LLM 的性能、可靠性和可用性有关。
缺乏对 LLM 可观察性数据的可见性可能会使 SREs 和 DevOps 团队更难确保其 AI 驱动的应用程序满足其服务级别目标,即 AI 生成内容的可靠性、性能、成本和质量,并拥有足够的遥测数据来排除相关问题。因此,强大的 LLM 可观察性和实时检测托管在 Google Cloud Vertex AI 上的模型性能异常对于 AI 驱动应用程序的成功至关重要。
根据其 LLM 应用程序的需求,客户可以使用托管在 Vertex AI 上的越来越多的模型,例如 Gemini 1.5 Pro、用于图像生成的 Imagen 和用于文本的 PaLM 2。每个模型都在特定领域表现出色,并以语言、音频、视觉、代码等某些模式生成内容。没有两个模型是相同的,每个模型都有特定的性能特征,因此服务运营商能够跟踪每个模型的个体性能、行为和成本非常重要。
Elastic 与 Google Cloud Vertex AI 的新集成
在 Elastic,我们很高兴地宣布,我们现在支持通过 Google Cloud Vertex AI 集成监控托管在 Google Cloud 中的大型语言模型 (Large Language Models - LLMs)。这种集成弥合了 Elastic 强大的搜索和可观察性功能与 Vertex AI 尖端的生成式 AI 模型之间的差距,使组织能够获得更深入的见解并提升客户体验 —— 所有这些都在 Elastic 生态系统中实现。
通过提供对 Vertex AI 模型的运行性能(包括资源消耗、预测准确性和系统可靠性)的深入洞察,这种 Vertex AI 集成使用户能够体验增强的 LLM 可观察性。通过利用这些数据,组织可以优化资源使用率,识别和解决性能瓶颈,并提高模型效率和准确性。
使用 GCP Vertex AI 指标解锁洞察
Elastic GCP Vertex AI Integration 从托管在 Vertex AI 上的模型中收集各种指标,使用户能够有效地监控、分析和优化他们的 AI 部署。这些指标可分为以下几类:
1. 预测指标
预测指标提供有关模型使用情况、性能瓶颈和可靠性的关键洞察。这些指标有助于确保平稳运行、优化响应时间并保持稳健、准确的预测。
- 按端点划分的预测计数:衡量不同端点的预测总数。
- 预测延迟:提供有关生成预测所需时间的洞察,使用户能够识别性能瓶颈。
- 预测错误:监控端点失败预测的数量。
2. 模型性能指标
模型性能指标提供了有关部署效率和响应能力的重要见解。这些指标有助于优化模型性能并确保可靠的操作。
- 模型使用情况:跟踪不同模型部署之间的使用情况分布。
- Token 使用情况:跟踪每个模型部署所消耗的 token 数量,这对于了解模型效率至关重要。
- 调用率:跟踪每个模型部署的调用频率。
- 模型调用延迟:测量调用模型所需的时间,帮助诊断性能问题。
3. 资源利用率指标
资源利用率指标对于监控资源效率和工作负载性能至关重要。它们有助于优化基础设施、防止瓶颈并确保 AI 部署的顺利运行。
- CPU 利用率:监控 CPU 使用率,以确保为 AI 工作负载提供最佳资源分配。
- 内存使用率:跟踪所有模型部署中消耗的内存。
- 网络使用率:测量发送和接收的字节数,提供对模型交互期间数据传输的洞察。
4. 概览指标
这些指标概述了 GCP Vertex AI 中部署的模型。它们对于跟踪整体性能、优化效率和识别部署中的潜在问题至关重要。
- 总调用次数:所有模型和端点的预测调用总数,提供活动的全面视图。
- 总 token 数:所有模型交互中处理的令牌总数,提供对资源利用率和效率的洞察。
- 总错误数:所有模型和端点中遇到的错误总数,帮助识别可靠性问题。
所有指标都可以按区域进行过滤,提供本地化洞察以便更好地进行分析。
注意:Vertex AI 集成提供了对两种部署模型的全面可见性:预配置吞吐量(容量预先分配)和按需付费(资源按需消耗)。
Vertex AI 概览仪表板
结论
GCP Vertex AI 集成代表着在增强 GCP Vertex AI 用户的 LLM 可观察性方面迈出了重要一步。通过解锁大量可操作数据,组织可以评估 LLM 的运行状况、性能和成本并解决运营问题,确保 AI 驱动应用程序的可扩展性和准确性。
现在你知道 GCP Vertex AI 集成如何增强 LLM 可观察性,现在轮到你尝试此集成了。启动 Elastic Cloud,并开始监控托管在 GCP Vertex AI 上的 LLM 应用程序。
原文:Elevate LLM Observability with GCP Vertex AI Integration — Elastic Observability Labs