介绍
随着人工智能越来越多地应用于商业应用,简化人工智能系统(尤其是机器学习模型)的开发和持续管理的新实践也不断涌现。MLOps 已成为一种基于 DevOps 原则实施机器学习的流行方法。
现在,随着 GPT-3 等大型语言模型 (LLM) 的兴起,一系列新的功能和挑战也随之出现。因此,LLMOps 的独特实践正在形成,以满足在生产中扩展和管理大型语言 AI 模型的独特需求。
让我们来分析一下整个模型生命周期中 MLOps 和 LLMOps 之间的异同:
- 比较机器学习和大型语言模型
- 实施这两类人工智能的挑战
- MLOps 概述和关键组件
- LLMOps 概念和实践简介
- LLMOps 如何在 MLOps 基础上进行构建并在新的领域进行创新
- 可扩展性、治理和自动化架构
- 针对 LLM 量身定制的监控和可观察性实践
- 工作流程编排、CI/CD 管道和模型治理
- 真实示例和用例
- 实施生产型人工智能的关键风险及缓解措施
- MLOps 和 LLMOps 的未来之路
最后,我将分享一个框架,用于确定贵组织中不同 AI 模型的正确操作化策略。让我们开始吧!
比较机器学习和大型语言模型
首先,让我们了解一下这两种类型的人工智能的区别:
机器学习概述
机器学习利用在大型数据集上训练的统计模型来执行分类、预测、模式识别等任务。需要数据科学和机器学习工程方面的专业知识。
大型语言模型概述
GPT-3 等 LLM 经过大量文本语料库的训练,可以生成类似人类的语言并模仿推理和对话。非专家也可通过文本提示来使用。
机器学习的主要差异
- 数据依赖性——ML 严重依赖训练数据,而 LLM 则利用预先训练的功能
- 定制——根据用例创建的 ML 模型与 LLM 微调
- 可解释性——ML 模型通常充当“黑匣子”,而 LLM 可以解释一些推理
- 计算要求——ML 需要 GPU 等专用硬件,而 LLM 则依赖于横向扩展计算
这些差异导致了不同的操作需求。
人工智能模型操作化的挑战
在生产中部署任何人工智能都会面临挑战,包括:
模型监控——跟踪模型性能、准确性和漂移
数据管理——对训练数据进行版本控制,监控新数据
合规性——监管和道德合规性
协作——协调数据科学家、工程师、合规专家之间的工作
迭代——用新数据重新训练模型
规模——以低延迟为大量用户提供预测服务
访问控制——管理模型访问授权
概念漂移——随着时间的推移,性能下降
为应对这些 AI Ops 挑战,专门的实践正在涌现。我们将首先检查 MLOps 成熟度。
MLOps 概述
MLOps 将 CI/CD、自动化和监控等 DevOps 最佳实践引入 ML 管道:
持续集成和交付
- 自动在新数据上重新训练和部署模型
基础设施配置
- 像 GPU 一样动态扩展计算以进行训练和服务
模型注册
- 包含元数据和审计跟踪的目录模型版本
监控和可观察性
- 性能指标、漂移检测、警报集成到 ML 管道中
一致的环境
- 便携式模型部署的包装和容器
自动化测试
- 对模型进行单元测试,推广前验证模型质量
模型治理
- 访问控制、合规政策、模型风险管理
当有效实施时,MLOps 可以实现敏捷、可靠的 ML 模型开发和运营。
接下来让我们探索建立在这些基础上的新兴LLMOps学科。
LLMOps 简介
LLMOps 将 MLOps 基础知识应用于大型语言模型的独特需求:
预建基础
- 利用现有的公共大语言模型 (LLM) 知识,而不是构建定制模型
数据最小化
- 微调与大规模数据训练
专用硬件
- 针对横向扩展计算(而非 GPU)进行了优化
可解释性
- 自然语言模型交互实现一定的透明度
快速编程
- 通过提示和数据集细化来调整能力
机密数据
- 敏感的企业数据需要强大的访问控制
概念漂移
- 监测生成能力随时间发生的细微变化
分布式执行
- 查询并行化、链接和组合
让我们更深入地探讨为 LLM 量身定制 MLOps 原则。
为 LLM 调整 MLOps 架构
虽然基础 MLOps 模式仍然适用,但架构必须适应 LLM 的独特需求:
强大的 API 层
查询模型和管理容量的界面。可集成到应用程序和监控中。
分布式服务
LLM 分为多个分区并分布在各个服务器上。由 Kubernetes 或集群管理器进行管理。
查询批处理和优化
缓存、请求合并和预测扩展等策略可以最大限度地提高吞吐量。
仔细的容量规划
根据需求预测和可抢占容量进行自动扩展。
低延迟网络结构
LLM 计算需要在阶段之间移动大量数据。RDMA 网络可加速计算。
模型压缩
修剪,量化,提炼等方法来优化尺寸和速度。
专用硬件
新的硬件,如 TPU 舱、推理加速器、针对 LLM 优化的高内存。
多阶段处理
将请求分解到专门的模型组件中,而不是进行整体处理。
优化完整的软件硬件堆栈可实现可扩展的 LLM 部署。
LLMOps 监控和可观察性
大语言模型 (LLM) 的监控重点如下:
用户指标——查询延迟、错误率、可用性
生成内容审计——抽样内容质量、敏感度、抄袭
模型盗用——检测模型抄袭违规行为
概念漂移——新数据的准确性下降
利用率——吞吐量、饱和度、空闲时间优化成本
道德——检查输出是否存在潜在危害
合规性——根据监管和政策护栏进行验证
安全性——未经授权的访问、异常检测、滥用
丰富的指标为模型健康和风险提供了广泛的可见性。
使用 CI/CD 实现 LLM 工作流程自动化
现代 DevOps 实践加速了 LLM 项目:
版本控制——为可测试性和可重用性而编纂的模型、配置和提示
自动化测试——对关键模型组件进行单元测试、集成测试和回归测试
模块化架构——解耦的组件实现独立迭代
基础设施即代码— Terraform、CloudFormation、Pulumi 用于配置环境
CI/CD 管道——自动快速工程、测试、模型部署
蓝/绿部署——通过分阶段部署降低风险
部署后验证——新模型的自动冒烟测试
GitOps——通过 Git 拉取请求进行配置和部署
不可变基础设施——一次性组件可防止配置漂移
端到端自动化和基于 Git 的协作最大限度地减少了错误和延迟。
模型治理
治理策略有助于降低 LLM 风险:
- 访问控制——管理查询模型的权限
- 运行时约束——限制模型执行资源,如内存、运行时、并发性
- 模型隔离——物理或逻辑上分离模型和数据
- 输出过滤——阻止不可接受的内容,如亵渎、PII、毒性
- 模式分析——检测表明滥用的异常模型行为
- 人工审核——对具有统计代表性的样本响应进行人工审核
- 可解释性——模型解释非直观的输出
- 血统追踪——了解数据来源,提示源影响模型
- Enclaving——基于硬件的机密计算保护 IP
治理对于可靠且负责任的 LLM 采用至关重要。
真实世界的 LLMOps 示例
让我们看一些 LLM 操作化的例子:
Anthropic — 使用 Kubernetes 和微服务在服务器之间分发 Claude LLM。通过自动扩展精心管理容量。
AI21 实验室——使用量化和修剪将 Jurassic-1 模型压缩 100 倍,以便从边缘设备提供服务。
Cohere——通过将所有预测运行到单独的反毒性分类模型来检测有毒、有偏见的输出。
HuggingFace — EasyDataset 跟踪数据集版本和元数据。模型链接到提供完整谱系的数据集。
英特尔——使用英特尔 SGX 的硬件隔离区域可防止模型复制和 IP 盗窃。
这些展示了现实世界的 LLM 挑战的创造性解决方案。
LLMOps 中的关键风险和缓解措施
实施 LLM 所涉及的一些主要风险包括:
安全漏洞——强化环境、监控异常
数据滥用——严格的访问控制、数据屏蔽、加密
模型退化——严格测试新版本,回滚计划
不可靠的输出——可解释性、低置信度预测的警告系统
有毒内容——内容过滤器、受限 API 以限制有害材料
违反政策——持续合规监控、审批工作流程
声誉损害——人工审计、质量保证测试代表回应
主动降低这些风险对于负责任地将 LLM 转化为生产至关重要。
前方的路
在不久的将来,我们可以期待:
混合 AI 系统——将各种 ML、LLM 和基于规则的模型协调在一起。
MLOps + LLMOps 融合——在通用平台上统一所有 AI 模型的 DevOps。
基于 Kubernetes 的部署— 以 Kubernetes 为标准的容器化模型。
利用 LLM 的 ML 工具——自动化更多 MLOps 功能,如数据标记、特征工程。
云原生开发——将模型构建迁移到 SageMaker Studio Lab 等服务。
治理自动化——自动执行政策编码的护栏。
集成的 AI 开发流程将加速组织利用 ML 和 LLM 功能。
结论
本指南涵盖了实施 ML 和 LLM AI 模型的关键考虑因素:
- MLOps 为 CI/CD、自动化和监控提供了坚实的基础
- LLMOps 对这些进行调整,以应对大型语言模型的新挑战
- 架构针对可扩展性、治理和开发人员生产力进行了优化
- 监控提供了对模型和业务健康状况的全面可视性
- 自动化、协作和模块化设计加速开发
无论专注于 ML、LLM 还是两者兼而有之,周到的运营架构都能快速、可靠且负责任地部署 AI 创新。最终,AI 驱动的解决方案的稳健性取决于构建和运行它们的实践。通过采取“运营优先”的方法,企业可以放心地将 AI 功能扩展到最大潜力。