旷野之间8 - LLMOps 与 MLOps操作化 AI 模型

介绍

随着人工智能越来越多地应用于商业应用,简化人工智能系统(尤其是机器学习模型)的开发和持续管理的新实践也不断涌现。MLOps 已成为一种基于 DevOps 原则实施机器学习的流行方法。

现在,随着 GPT-3 等大型语言模型 (LLM) 的兴起,一系列新的功能和挑战也随之出现。因此,LLMOps 的独特实践正在形成,以满足在生产中扩展和管理大型语言 AI ​​模型的独特需求。

让我们来分析一下整个模型生命周期中 MLOps 和 LLMOps 之间的异同:

  • 比较机器学习和大型语言模型
  • 实施这两类人工智能的挑战
  • MLOps 概述和关键组件
  • LLMOps 概念和实践简介
  • LLMOps 如何在 MLOps 基础上进行构建并在新的领域进行创新
  • 可扩展性、治理和自动化架构
  • 针对 LLM 量身定制的监控和可观察性实践
  • 工作流程编排、CI/CD 管道和模型治理
  • 真实示例和用例
  • 实施生产型人工智能的关键风险及缓解措施
  • MLOps 和 LLMOps 的未来之路

最后,我将分享一个框架,用于确定贵组织中不同 AI 模型的正确操作化策略。让我们开始吧!

比较机器学习和大型语言模型

首先,让我们了解一下这两种类型的人工智能的区别:

机器学习概述

机器学习利用在大型数据集上训练的统计模型来执行分类、预测、模式识别等任务。需要数据科学和机器学习工程方面的专业知识。

大型语言模型概述

GPT-3 等 LLM 经过大量文本语料库的训练,可以生成类似人类的语言并模仿推理和对话。非专家也可通过文本提示来使用。

机器学习的主要差异

  • 数据依赖性——ML 严重依赖训练数据,而 LLM 则利用预先训练的功能
  • 定制——根据用例创建的 ML 模型与 LLM 微调
  • 可解释性——ML 模型通常充当“黑匣子”,而 LLM 可以解释一些推理
  • 计算要求——ML 需要 GPU 等专用硬件,而 LLM 则依赖于横向扩展计算

这些差异导致了不同的操作需求。

人工智能模型操作化的挑战

在生产中部署任何人工智能都会面临挑战,包括:

模型监控——跟踪模型性能、准确性和漂移

数据管理——对训练数据进行版本控制,监控新数据

合规性——监管和道德合规性

协作——协调数据科学家、工程师、合规专家之间的工作

迭代——用新数据重新训练模型

规模——以低延迟为大量用户提供预测服务

访问控制——管理模型访问授权

概念漂移——随着时间的推移,性能下降

为应对这些 AI Ops 挑战,专门的实践正在涌现。我们将首先检查 MLOps 成熟度。

MLOps 概述

MLOps 将 CI/CD、自动化和监控等 DevOps 最佳实践引入 ML 管道:

持续集成和交付

  • 自动在新数据上重新训练和部署模型

基础设施配置

  • 像 GPU 一样动态扩展计算以进行训练和服务

模型注册

  • 包含元数据和审计跟踪的目录模型版本

监控和可观察性

  • 性能指标、漂移检测、警报集成到 ML 管道中

一致的环境

  • 便携式模型部署的包装和容器

自动化测试

  • 对模型进行单元测试,推广前验证模型质量

模型治理

  • 访问控制、合规政策、模型风险管理

当有效实施时,MLOps 可以实现敏捷、可靠的 ML 模型开发和运营。

接下来让我们探索建立在这些基础上的新兴LLMOps学科。

LLMOps 简介

LLMOps 将 MLOps 基础知识应用于大型语言模型的独特需求:

预建基础

  • 利用现有的公共大语言模型 (LLM) 知识,而不是构建定制模型

数据最小化

  • 微调与大规模数据训练

专用硬件

  • 针对横向扩展计算(而非 GPU)进行了优化

可解释性

  • 自然语言模型交互实现一定的透明度

快速编程

  • 通过提示和数据集细化来调整能力

机密数据

  • 敏感的企业数据需要强大的访问控制

概念漂移

  • 监测生成能力随时间发生的细微变化

分布式执行

  • 查询并行化、链接和组合

让我们更深入地探讨为 LLM 量身定制 MLOps 原则。

为 LLM 调整 MLOps 架构

虽然基础 MLOps 模式仍然适用,但架构必须适应 LLM 的独特需求:

强大的 API 层

查询模型和管理容量的界面。可集成到应用程序和监控中。

分布式服务

LLM 分为多个分区并分布在各个服务器上。由 Kubernetes 或集群管理器进行管理。

查询批处理和优化

缓存、请求合并和预测扩展等策略可以最大限度地提高吞吐量。

仔细的容量规划

根据需求预测和可抢占容量进行自动扩展。

低延迟网络结构

LLM 计算需要在阶段之间移动大量数据。RDMA 网络可加速计算。

模型压缩

修剪,量化,提炼等方法来优化尺寸和速度。

专用硬件

新的硬件,如 TPU 舱、推理加速器、针对 LLM 优化的高内存。

多阶段处理

将请求分解到专门的模型组件中,而不是进行整体处理。

优化完整的软件硬件堆栈可实现可扩展的 LLM 部署。

LLMOps 监控和可观察性

大语言模型 (LLM) 的监控重点如下:

用户指标——查询延迟、错误率、可用性

生成内容审计——抽样内容质量、敏感度、抄袭

模型盗用——检测模型抄袭违规行为

概念漂移——新数据的准确性下降

利用率——吞吐量、饱和度、空闲时间优化成本

道德——检查输出是否存在潜在危害

合规性——根据监管和政策护栏进行验证

安全性——未经授权的访问、异常检测、滥用

丰富的指标为模型健康和风险提供了广泛的可见性。

使用 CI/CD 实现 LLM 工作流程自动化

现代 DevOps 实践加速了 LLM 项目:

版本控制——为可测试性和可重用性而编纂的模型、配置和提示

自动化测试——对关键模型组件进行单元测试、集成测试和回归测试

模块化架构——解耦的组件实现独立迭代

基础设施即代码— Terraform、CloudFormation、Pulumi 用于配置环境

CI/CD 管道——自动快速工程、测试、模型部署

蓝/绿部署——通过分阶段部署降低风险

部署后验证——新模型的自动冒烟测试

GitOps——通过 Git 拉取请求进行配置和部署

不可变基础设施——一次性组件可防止配置漂移

端到端自动化和基于 Git 的协作最大限度地减少了错误和延迟。

模型治理

治理策略有助于降低 LLM 风险:

  • 访问控制——管理查询模型的权限
  • 运行时约束——限制模型执行资源,如内存、运行时、并发性
  • 模型隔离——物理或逻辑上分离模型和数据
  • 输出过滤——阻止不可接受的内容,如亵渎、PII、毒性
  • 模式分析——检测表明滥用的异常模型行为
  • 人工审核——对具有统计代表性的样本响应进行人工审核
  • 可解释性——模型解释非直观的输出
  • 血统追踪——了解数据来源,提示源影响模型
  • Enclaving——基于硬件的机密计算保护 IP

治理对于可靠且负责任的 LLM 采用至关重要。

真实世界的 LLMOps 示例

让我们看一些 LLM 操作化的例子:

Anthropic — 使用 Kubernetes 和微服务在服务器之间分发 Claude LLM。通过自动扩展精心管理容量。

AI21 实验室——使用量化和修剪将 Jurassic-1 模型压缩 100 倍,以便从边缘设备提供服务。

Cohere——通过将所有预测运行到单独的反毒性分类模型来检测有毒、有偏见的输出。

HuggingFace — EasyDataset 跟踪数据集版本和元数据。模型链接到提供完整谱系的数据集。

英特尔——使用英特尔 SGX 的硬件隔离区域可防止模型复制和 IP 盗窃。

这些展示了现实世界的 LLM 挑战的创造性解决方案。

LLMOps 中的关键风险和缓解措施

实施 LLM 所涉及的一些主要风险包括:

安全漏洞——强化环境、监控异常

数据滥用——严格的访问控制、数据屏蔽、加密

模型退化——严格测试新版本,回滚计划

不可靠的输出——可解释性、低置信度预测的警告系统

有毒内容——内容过滤器、受限 API 以限制有害材料

违反政策——持续合规监控、审批工作流程

声誉损害——人工审计、质量保证测试代表回应

主动降低这些风险对于负责任地将 LLM 转化为生产至关重要。

前方的路

在不久的将来,我们可以期待:

混合 AI 系统——将各种 ML、LLM 和基于规则的模型协调在一起。

MLOps + LLMOps 融合——在通用平台上统一所有 AI 模型的 DevOps。

基于 Kubernetes 的部署— 以 Kubernetes 为标准的容器化模型。

利用 LLM 的 ML 工具——自动化更多 MLOps 功能,如数据标记、特征工程。

云原生开发——将模型构建迁移到 SageMaker Studio Lab 等服务。

治理自动化——自动执行政策编码的护栏。

集成的 AI 开发流程将加速组织利用 ML 和 LLM 功能。

结论

本指南涵盖了实施 ML 和 LLM AI 模型的关键考虑因素:

  • MLOps 为 CI/CD、自动化和监控提供了坚实的基础
  • LLMOps 对这些进行调整,以应对大型语言模型的新挑战
  • 架构针对可扩展性、治理和开发人员生产力进行了优化
  • 监控提供了对模型和业务健康状况的全面可视性
  • 自动化、协作和模块化设计加速开发

无论专注于 ML、LLM 还是两者兼而有之,周到的运营架构都能快速、可靠且负责任地部署 AI 创新。最终,AI 驱动的解决方案的稳健性取决于构建和运行它们的实践。通过采取“运营优先”的方法,企业可以放心地将 AI 功能扩展到最大潜力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/790513.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

火热夏季:浦语*书生InternLM大模型实战闯关-入门岛之Linux基础知识

一、ssh链接与端口映射并运行hello_wold.py 1.创建开发机 InternStudio创建开发机 2.进入开发机 3.Ssh链接开发机 powerShell终端ssh链接开发机。 4.创建一个hello_world.py文件web demo 5.运行web demo 6.端口映射 7.本地浏览器打开web 二、 VSCODE 远程连接开发机并创建一个…

LeetCode67(二进制求和[位运算,大数运算])

二进制求和 题目要求: 给你两个二进制字符串 a 和 b ,以二进制字符串的形式返回它们的和。 这道题其实有几种解法.我们先来介绍简单的方法. 我们可以将两个字符串的二进制转成十进制,获取对应值相加之后,我们可以不断对2取余,获取尾数拼接即可.也就是像我们平常求一…

笔试算法刷题

猿辅导2021校园招聘笔试(算法一) 牛客网 - 找工作神器|笔试题库|面试经验|实习招聘内推,求职就业一站解决_牛客网 (nowcoder.com) 第一眼看到这个题想到的是蓝桥杯飞机降落,贪心题。但是这样算的是最大不相交区间数量&#xff0…

docker笔记2

docker笔记2 一、阿里云镜像配置二、docker基本原理1.docker是如何启动一个容器的2.docker的底层原理 三、镜像命令总结 一、阿里云镜像配置 配置镜像的目的 由于Docker Hub等公共镜像仓库的服务器可能位于国外,直接从中拉取镜像时可能会遇到网络延迟或不稳定的问…

MySQL Undo Log

总结自bojiangzhou undo log称为撤销日志或回滚日志。在一个事务中进行增删改操作时,都会记录对应的 undo log。在对数据库进行修改前,会先记录对应的 undo log,然后在事务失败或回滚的时候,就可以用这些 undo log 来将数据回滚到…

(2024,测试时训练(TTT),线性注意力,RNN,嵌套循环)学习(在测试时学习):具有表达性隐藏状态的 RNN

Learning to (Learn at Test Time): RNNs with Expressive Hidden States 公和众与号:EDPJ(进 Q 交流群:922230617 或加 VX:CV_EDPJ 进 V 交流群) 目录 0. 摘要 1. 简介 2. 方法 2.1 使用 TTT 更新隐藏状态 2.2 …

常用的JVM启动参数

JVM的启动参数有很多,但是我们平常能用上的并不是特别多,这里介绍几个我们常用的: 1. 堆设置: 。 -Xms:设置堆的初始大小。 。.-Xmx:设置堆的最大大小。 2. 栈设置: 。 -XsS:设置每个…

​​​防御第一次作业

1、拓扑图及实验要求: 2、配置: 配置终端及服务器IP地址: Pc2: Client1: Pc4: Client2: PC1: Server1: Server2: 防火墙基础配置: [fw1]int g …

光学、SAR卫星影像助力洞庭湖决堤抢险(附带数据下载)

​​ 点击下方全系列课程学习 点击学习—>ArcGIS全系列实战视频教程——9个单一课程组合系列直播回放 点击学习——>遥感影像综合处理4大遥感软件ArcGISENVIErdaseCognition 7月5日下午,湖南岳阳市华容县团洲乡团北村团洲垸洞庭湖一线堤防发生决口&#xff0…

怎样在 PostgreSQL 中优化对 UUID 数据类型的索引和查询?

文章目录 一、UUID 数据类型概述二、UUID 索引和查询的性能问题三、优化方案(一)选择合适的索引类型(二)压缩 UUID(三)拆分 UUID(四)使用覆盖索引(五)优化查询…

Meta发布Llama 2驱动的AI代码生成器:Code Llama,开源来袭!

Meta 刚刚了号称是编程领域 “最先进的大语言模型”—— Code Llama ,可根据 代码和自然语言提示 生成代码和有关代码的自然语言,支持多种主流编程语言, 包括 Python、C、Java、PHP、Typescript (Javascript)、C# 和 Bash 。 Code Llama 完全…

“Pandas数据处理与分析:实用技巧与应用“

目录 # 开篇 1. pandas的series的了解 1.1 pd.Series 创建 1.2 pd.series 的索引使用 1.3 pd.series 之字典/索引 1.4 pandas 转换数据类型 1.5 pandas 通过索引或者通过位置来取值 1.6 pandas 指定行取值 1.7 pands之Series 切片和索引 1.8 pands之Series 的索引和值…

vue2/3代码格式化问题,看着太难受了

1.原本的代码: 格式化后的代码: 太难受了! 2.原本的代码 格式化后的代码 格式化跟有病似的,看着非常难受! 有没有什么插件解决!?

C++ //练习 14.44 编写一个简单的桌面计算器使其能处理二元运算。

C Primer(第5版) 练习 14.44 练习 14.44 编写一个简单的桌面计算器使其能处理二元运算。 环境:Linux Ubuntu(云服务器) 工具:vim 代码块 /**********************************************************…

Cesium中实现全球体积云效果的一种方案

原生 Cesium 提供了一种积云的效果,云的物理特征和渲染性能都还不错,这种方案适合表达小范围相对离散的云朵,但是用来实现全球范围下相对连续、柔和渐变的云层比较困难。本文在体渲染的基础上,参考了开源社区中 shadertoy 和 thre…

java数组之线性查找、二分法查找

一、线性查找 思想:如果想在一个数组中查找是否有某个元素,最容易想到的办法就是遍历数组,将数组中元素与想要查找的元素逐个对比,如果相等表示找到了,如果不等,则表示没找到。这就是线性查找的思想。 案例…

如何在微信小程序中对接微信支付

个人名片 🎓作者简介:java领域优质创作者 🌐个人主页:码农阿豪 📞工作室:新空间代码工作室(提供各种软件服务) 💌个人邮箱:[2435024119qq.com] &#x1f4f1…

流模型flow

流模型 Flow 超详解,基于 Flow 的生成式模型,从思路到基础到公式推导到模型理解与应用(Flow-based Generative Model)_generative flows-CSDN博客

软考《信息系统运行管理员》-3.1信息系统设施运维的管理体系

3.1信息系统设施运维的管理体系 1 信息系统设施运维的对象 基础环境 主要包括信息系统运行环境(机房、设备间、配线室、基站、云计算中心 等)中的空调系统、供配电系统、通信应急设备系统、防护设备系统(如消防系统、安全系统) 等,能维持系统安全正常运转&#xf…

食物链之带权并查集解法

直接看题&#xff1a;https://www.acwing.com/problem/content/description/242/ 下面就是代码的实现了&#xff0c;因为自己与自己肯定是同类我们初始化为0. 下面是AC代码&#xff1a; #include<bits/stdc.h> using namespace std; int n,k; int fk,x,y; int fa[10001…