OpenShift 4 - 在 Jupyter Notebook 中使用 Elyra 执行 AI 处理流水线

《OpenShift / RHEL / DevSecOps 汇总目录》
说明:本文已经在 OpenShift 4.14 + RHODS 2.50 的环境中验证

说明:请先根据《OpenShift 4 - 管理和使用 OpenShift AI 运行环境》一文完成 MinIO 的安装。
注意:如无特殊说明,和 OpenShift AI 相关的 Blog 均无需 GPU。

什么是 Elyra

Elyra 是 JupyterLab Notebook 的扩展插件。它提供了一个可视化管道编辑器,用于从 Python 和 R 脚本以及 Jupyter Notebook 构建管道,从而有助于简化将多个文件转换为批处理作业或工作流的过程。

Elyra 的管道由节点组成,节点之间相互连接,以定义执行依赖关系。为了组装管道,Elyra 的可视化管道编辑器支持将文件拖放到画布上并定义其依赖关系。在组装好管道并准备运行后,Elyra 编辑器会生成 Tekton YAML 定义,并将其提交给 OpenShift Pipeline 执行。

准备 Elyra 管道运行环境

使用定制镜像

  1. 用管理员登录 OpenShift AI 控制台,然后进入 Settings > Notebook image settings。
  2. 在 Notebook image settings 页面点击 Import new image 按钮,然后在 Import notebook image 窗口按以下配置导入镜像。
    Repository: quay.io/mmurakam/workbenches:fraud-detection-v1.0.1
    Name: Fraud detection workbench

准备模型

  1. 在 MinIO 中创建名为 fraud-detection 的 Bucket。
  2. 从 https://github.com/mamurak/os-mlops-artefacts/tree/fraud-detection-model-v0.1/models/fraud-detection 和 https://github.com/mamurak/os-mlops-artefacts/tree/fraud-detection-model-v0.1/data/fraud-detection 分别下载 model-latest.onnx 和 live-data.csv 文件,然后上传到 MinIO 的 fraud-detection 路径下。
    在这里插入图片描述

配置 Workbench、 Data Connection 和 Cluster storage

  1. 使用一般用户在 OpenShift AI 控制台中创建名为 pipelines-example 的 Data Science Project。
  2. 在 pipelines-example 项目下按照以下配置创建名为 fraud-detection-workbench 的 Workbench。
    将 Name 设置 fraud-detection-workbench
    在 Notebook image 中为 Notebook image 选择 Fraud detection workbench
    在 Deployment size 中为 Container size 选择 Small
  3. 分别为 fraud-detection 应用和运行的 Pipeline 创建名为 fraud-detection 和 offline-scoring-data-volume 的 Cluster storage,都为 5 GB。
  4. 按照以下配置创建 Data Connection,用来访问对象存储中的模型。
    Name: fraud-detection
    Access key: minio
    Secret key: minio123
    Endpoint: http://minio-service.minio.svc.cluster.local:9000
    Bucket: fraud-detection
  5. 完成配置以后 fraud-detection 项目下的配置如下图:
    在这里插入图片描述

创建 Elyra Server 运行环境

配置和运行 Elyra 管道的生命周期需要一个 Elyra Server 环境,Elyra Serve 包含以下组件和功能:

  • 运行 Pipeline Server 的容器
  • 用来保存 Pipeline 定义和运行结果的 MariaDB
  • 用来定时运行 Pipeline 的调度器
  • A Persistent Agent to record the set of containers that executed as well as their inputs and outputs.
  • 用来记录容器集执行的输入和输出的持久代理。

配置 Elyra Server 的过程如下:

  1. 在 pipelines-example 项目下按下图创建一个 Data Connection。其中名为 fraud-detection-pipelines 的 Bucket 会被自动创建。
    Name: fraud-detection-pipelines
    Access key: minio
    Secret key: minio123
    Endpoint: http://minio-service.minio.svc.cluster.local:9000
    Bucket: fraud-detection-pipelines
    在这里插入图片描述
  2. 在 pipelines-example 项目下点击 Create a pipeline server 按钮。
    在这里插入图片描述
  3. 在 Configure pipeline server 窗口中选择其所使用的 Data Connection 为 fraud-detection-pipelines。
    在这里插入图片描述
  4. 在配置好 Pipeline server 后,可以在 OpenShift 开发者视图中看到部署的相关资源如下图。
    在这里插入图片描述

配置 Elyra 管道

  1. 打开 fraud-detection-workbench,然后在 Jupyter Notebook 中导入 https://github.com/RedHatQuickCourses/rhods-qc-apps.git。
  2. 进入 rhods-qc-apps/5.pipelines/elyra 目录,然后在 Jupyter Notebook 的 Launcher 中点击 Elyra 区域的 Pipeline Editor,然后将创建的文件改名为 offline-scoring.pipeline。
    在这里插入图片描述
  3. 打开的 offline-scoring.pipeline 文件,然后将 rhods-qc-apps/5.pipelines/elyra 目录中的 5 个 py 文件拖拽到 offline-scoring.pipeline 文件的编辑区,然后按下图顺序将其连接起来。
    在这里插入图片描述
  4. 进入左侧工具条的 Runtime Images,此时界面如下图。然后点击 “+” 来创建新的运行时镜像。
    在这里插入图片描述
  5. 在 Add new Runtime Image runtime image 界面中按以下配置创建,然后 Save & Close。
    Display Name: fraud detection runtime
    Image Name: quay.io/mmurakam/runtimes:fraud-detection-v0.2.0
    在这里插入图片描述
  6. 打开 Open Panel,然后在右侧进入 PIPELINE PROPERTIES。
  7. 在 Generic Node Defaults 区域将 Runtime Image 设为 fraud detection runtime。
  8. 增加 4 个 Kubernetes Secrets。将每个 Secret 的 Environment Variable 和 Secret Key 设为相同内容,分别为以下 4 组,并且将所有 Secret Name 设为 aws-connection-fraud-detection。
    AWS_ACCESS_KEY_ID
    AWS_SECRET_ACCESS_KEY
    AWS_S3_ENDPOINT
    AWS_S3_BUCKET
    在这里插入图片描述
  9. 在 Pipeline 中选择 model_loading.py 节点,此时界面右侧区域会切换至 NODE PROPERTIES,然后将 Output Files 设为 model.onnx。
  10. 在 Pipeline 中依次选择 data_ingrestion.py、preprocessing.py、scoring.py、results_upload.py节点,然后在 NODE PROPERTIES 中按以下配置为每个节点增加一个 Data Volume。
    Mount Path: /data
    Persistent Volume Claim Name: offline-scoring-data-volume
    在这里插入图片描述

运行Elyra 管道

  1. 在 offline-scoring.pipeline 界面的工具条中点击 Run pipeline 图标运行管道,然后在提示窗口接受缺省选项,最后点击 OK。
    在这里插入图片描述
  2. 管道运行后,在下面成功提示的提示框点击 OK。注意:如果管道没有运行起来,可以先关闭再重启 Workbench。
    在这里插入图片描述
  3. 在 OpenShift AI 控制台进入 Data Science Pipelines > Pipelines,可以看到管道的运行状态,如下图。
    在这里插入图片描述
  4. 点击上图 Runs 下的 offline-scoring-1223032941 的链接,可以看到此次管道运行的详细情况,如下图。
    在这里插入图片描述
  5. 另外也可在 OpenShift 开发者视图中的管道中看到 OpenShift Pipeline 的运行情况。注意:下图中名为 pipeline/runid 的标签和上图的 Run ID 有相同的内容。
    在这里插入图片描述
  6. 在 MinIO 中查看 fraud-detection 和 fraud-detection-pipelines 存储桶生成的内容,分别是模型和管道生成的数据。
    在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

参考

https://redhatquickcourses.github.io/rhods-pipelines

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/301186.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

WWDG---窗口看门狗

一.简介 窗口看门狗跟独立看门狗一样,也是一个递减计数器不断的往下递减计数,必须在一个窗口的上限值(用户定义)和下限值(0X40,固定不能变)之间喂狗不会复位,在上限值之前和下限值之…

LabVIEW开发自动光学焊点检测系统

LabVIEW开发自动光学焊点检测系统 LabVIEW于开发了一个自动光学焊点检测系统,旨在提高电子元件焊接的质量和效率。通过利用LabVIEW的高级视觉开发模块,该系统能够准确地识别和分类电路板上的不同焊点类型,如桥接、虚焊、漏焊和多锡。这一进步…

<软考高项备考>《论文专题 - 53 进度管理(4) 》

6 过程5-制定进度计划 6.1 问题 4W1H过程做什么分析活动顺序、持续时间、资源需求和进度制约因素,创建进度模型,从而落实项目执行和监控的过程作用:为完成项目活动而制定具有计划日期的进度模型为什么做为项目制定衡量项目的进度标尺谁来做…

PCL 大地坐标转空间直角坐标(C++详细过程版)

目录 一、算法原理二、代码实现三、结果展示四、测试数据本文由CSDN点云侠原创,原文链接。如果你不是在点云侠的博客中看到该文章,那么此处便是不要脸的爬虫与GPT生成的文章。 一、算法原理 二、代码实现 头文件及读取保存函数见:PCL 空间直角坐标转大地坐标(直接求解法C…

如何制作活动报名收集系统,支持填表者单选、多选

发布者制作填表信息时,有些信息希望让用户直接选择,能够节省不必要的填写时间。 易查分【无需条件填表】以及【可修改列】功能可以制作支持9种填表类型的信息收集系统,本次就来介绍如何使用此功能。 📌使用教程 📖案例…

Win11怎么重置系统?(小白专享篇)

话不多说,直接上干货 重置Windows 11系统的步骤如下: 1.同时按下【Windowsi】键打开系统设置。 2.在当前页面下拉选择【系统】-【恢复】。 3.点击重置此电脑下的【初始化电脑】。 4.点击【删除所有内容】。 5.选择删除所有内容后,继续选…

结算时间和可组合性助力Sui上DeFi蓬勃发展

结算时间是基于Sui交易处理模型的度量标准,确保DeFi用户几乎立即看到交易结果。可组合性则是深深融入Sui的编程环境,扩展了其对对象和智能合约的影响。Sui深度的可组合性赋予DeFi构建者引入创新产品的能力,使其在其他区块链上的DeFi应用中独树…

24 主题切换

效果演示 实现了一个主题切换功能,当用户点击主题切换按钮时,背景颜色和文字颜色会随之改变,同时主体内容的背景颜色会从暗色变为浅色,文字颜色会从黑色变为白色。当用户再次点击主题切换按钮时,背景颜色和文字颜色会再…

SpringMVC源码解析——HTTP请求处理

在SpringMVC源码解析——DispatcherServlet的逻辑处理中,最后介绍到了org.springframework.web.servlet.DispatcherServlet的doDispatch方法中关于处理Web HTTP请求的核心代码是调用AbstractHandlerMethodAdapter类的handle方法,源码如下: /*…

【大数据】Spark学习笔记

初识Spark Spark和Hadoop HadoopSpark起源时间20052009起源地MapReduceUniversity of California Berkeley数据处理引擎BatchBatch编程模型MapReduceResilient distributed Datesets内存管理Disk BasedJVM Managed延迟高中吞吐量中高优化机制手动手动APILow levelhigh level流…

【MySQL】表的增删改查

表的增删改查 一、Create二、Retrieve1、SELECT 列2、WHERE 条件3、结果排序4、筛选分页结果 三、Update四、Delete1、删除数据2、截断表 六、插入查询结果 表的增删查改简称CRUD:Create(新增),Retrieve(查找&#xff…

任务调度实现

一、定时任务概述 在项目中开发定时任务应该一种比较常见的需求,在 Java 中开发定时任务主要有三种解决方案:一是使用JDK 自带的 Timer,二是使用 Spring Task,三是使用第三方组件 Quartz Timer 是 JDK 自带的定时任务工具,其简单易…

Mysql与Redis如何保证数据一致性问题

目录 一、Mysql与Redis同步数据是否存在延迟呢? 二、如何保证一致性? 2.1、第一种方式:手动编码 2.2、第二种方式:MQ异步更新 2.3、第三种方式:binlog同步数据 2.4、第四种方式:双写一致性 2.5、第五…

STM32---中断

中断框图 一.中断 中断:当有中断请求时,CPU会停止处理当前的任务,转而去处理中断任务。 中断输入线有19/20根(互联型号20根)。 分类:系统异常(10个)和外部中断(60个&…

UE4 4.21-4.27使用编辑器蓝图EditorBlueprint方法

在UE4 4.21中,编辑器蓝图(Editor Blueprint)是一个强大的工具,允许开发者扩展和自定义Unreal编辑器的功能。通过编辑器蓝图,我们可以创建自定义的工具和功能,以优化开发流程。 本教程将指导您如何在UE4 4.…

【Origin绘图】准备工作:安装与卸载

Origin准备工作:安装与卸载 软件介绍:Origin安装Origin卸载参考 软件介绍: Origin是由OriginLab公司开发的一个科学绘图、数据分析软件,支持在Microsoft Windows下运行。Origin支持各种各样的2D/3D图形。Origin中的数据分析功能包括统计,信号…

探索文档图像大模型,提升智能文档处理性能

探索文档图像大模型,提升智能文档处理性能 0. 前言1. 垂直领域大模型论坛1.1 论坛介绍1.2 走近合合信息 2. 大模型时代下的文档图像智能处理2.1 大模型发展2.2 GPT-4V 在文档领域的表现2.3 GPT-4V 对智能文档处理的局限性 3. 大模型时代下的智能文档处理3.1 像素级 …

Java异常机制:从混乱到控制的错误管理艺术

👑专栏内容:Java⛪个人主页:子夜的星的主页💕座右铭:前路未远,步履不停 目录 一、异常的体系结构1、异常的体系结构2、异常的分类 二、异常的处理1、异常的抛出2、异常的捕获2.1、异常声明throws2.2、try-c…

加工制造EUV极紫外光刻机的钼/硅反射镜的方法与技术

EUV光刻机使用的反射镜材质是具有极高精度的钼/硅反射镜。这是因为几乎所有材料对13.5nm的EUV都强烈吸收,故EUV光刻机不能采用DUV那样的透镜,只能采用反射式光学系统。又因为EUV波长与晶格参数接近,很容易发生衍射,反射率也很低&a…

Wpf 使用 Prism 实战开发Day09

设置模块设计 1.效果图 一.系统设置模块,主要有个性化(用于更改主题颜色),系统设置,关于更多,3个功能点。 个性化的颜色内容样式,主要是从 Material Design Themes UI简称md、提供的demo里复制代码过来使用的。 1.设置…