为您的人工智能数据提供类似 Git 的版本管理功能

您过去肯定有过版本控制代码。但是,您是否对数据进行了版本控制?您是否曾经想过与不同的团队协作处理大量数据,而无需提交大量数据?想象一下,使用类似 git 的命令来运行类似存储库的生态系统,在该生态系统中,您可以提交数据、创建分支、检查历史记录并在整个数据生命周期中跟踪更改,那将是多么酷。最终,这可确保大型组织中的团队以与协作处理代码相同的方式协作处理数据。Pachyderm 的支柱是其文件系统 PFS。它本质上构建在 Postgres 和 Object Store 之上,例如 MinIO。这可确保数据在所有请求中都是安全和一致的。这可确保用户可以使用分支和提交对其数据进行版本控制,以管理和跟踪随时间的变化。

我们来看看如何以 MinIO Enterprise Store 作为主干来设置 Pachyderm。

MinIO Enterprise Store 和 Pachyderm

您应该已经有一个 Kubernetes 集群,并使用 Kubernetes 的支持版本运行。完成后,请继续下载并解压缩 MinIO Enterprise Store 的 Kubernetes YAML 文件。

wget https://dl.min.io/enterprise/console.tar.gz


tar xvf console.tar.gz

启动 MinIO Enterprise 控制台


kubectl apply -k console

接下来让我们安装 Pachyderm。

添加 Helm Chart 仓库和更新

helm repo add pachyderm https://helm.pachyderm.com

helm repo update

使用以下步骤创建 MinIO 存储桶

<div>

  <script async src="https://js.storylane.io/js/v2/storylane.js"></script>

  <div class="sl-embed" style="position:relative;padding-bottom:calc(79.17% + 25px);width:100%;height:0;transform:scale(1)">

	<iframe loading="lazy" class="sl-demo" src="https://app.storylane.io/demo/cesgrcyf9wnq?embed=inline" name="sl-embed" allow="fullscreen" allowfullscreen style="position:absolute;top:0;left:0;width:100%!important;height:100%!important;border:1px solid rgba(63,95,172,0.35);box-shadow: 0px 0px 18px rgba(26, 19, 72, 0.15);border-radius:10px;box-sizing:border-box;"></iframe>

  </div>

</div>

使用 MinIO 终端节点、存储桶名称、访问密钥 ID 和私有密钥更新 Pachyderm Helm 值文件。

pachd:

  storage:

	backend: "AMAZON"

	storageURL: "s3://pachyderm-test?endpoint=minio.default.svc.cluster.local:9000&disableSSL=true&region=dummy-region"


部署 Pachyderm

helm install pachyderm -f values.yaml pachyderm/pachyderm --version <your_chart_version>

添加和检索数据

有两种方法可以添加和检索数据。

MC

MC 是最好和最简单的方法。您可以像添加任何其他 S3 终端节点一样添加 Pachyderm 终端节点

mc alias set pachyderm_minio <pachyderm-address> <YOUR-PACHYDERM-AUTH-TOKEN> <YOUR-PACHYDERM-AUTH-TOKEN>

列出 Pachyderm 存储库和项目的内容

mc ls local/master.<repo>.<project>

命令行界面

您还可以使用 aws cli 将数据放入 MinIO 中

aws --endpoint-url <pachyderm-address> s3 cp myfile.csv s3://minio.default.svc.cluster.local:9000

从 MinIO Enterprise Store 检索数据同样简单

aws --endpoint-url <pachyderm-address> s3 cp s3://minio.default.svc.cluster.local:9000/myfile.csv

如果您在 Kubernetes 集群之外,则可以使用端口转发,但我建议将其限制为测试用例。

AI 数据的版本控制

我们发布代码,现在很明显我们为什么要这样做。我们将基础设施版本化为代码,这在过去并不是常态,但慢慢地,即使对于小型设置,对基础设施代码进行版本控制也与应用程序代码一样重要。从根本上说,我们这样做的原因是为了合作。了解大数据和 AI/ML 是同一枚硬币的两面非常重要,你不能缺一不可,随着模型的发展,它们都会相互影响。因此,您希望能够确保其他团队可以以有意义的方式处理您生成的数据,而无需再次重做整个数据,想象一下每次有人在没有适当的 git commit/merge 的情况下覆盖您的代码。在 MinIO,我们不仅注重简单性,还注重管理基础设施的最佳实践。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/892152.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Unity实现自定义图集(三)

以下内容是根据Unity 2020.1.0f1版本进行编写的   1、实现编辑器模式下进游戏前Pack全部自定义图集 同Unity的图集一样,Unity的编辑器模式会在进游戏前把全部的SpriteAtlas都打一次图集,如图: 我们也实现这样的效果。 首先需要获取全部的图集路径。因为目前使用的是以.…

RISC-V笔记——RVWMO基本体

1. 前言 RISC-V使用的内存模型是RVWMO(RISC-V Weak Memory Ordering)&#xff0c;它是Release Consistency的扩展&#xff0c;因此&#xff0c;RVWMO的基本特性类似于RC模型。 2. RC模型 Release consistency(RC)的提出是基于一个观察&#xff1a;将所有同步操作用FENCE围在一…

全国职业技能大赛——信息安全管理与评估第一阶段BC、FW、WAF题目详细解析过程

💗需要职业技能大赛环境+WP,请联系我!🍬 博主介绍 👨‍🎓 博主介绍:大家好,我是 一个想当文人的黑客 ,很高兴认识大家~ ✨主攻领域:【渗透领域】【应急响应】 【edusrc漏洞挖掘】 【VulnHub靶场复现】【面试分析】 🎉欢迎关注💗一起学习👍一起讨论⭐️一起…

【WPF】中ListBox的ListBox选项的选中状态在弹出MessageBox后失效的解决办法

1.问题描述 1.1 ListBox选项的样式 在WPF中&#xff0c;可以通过定义ListBoxItem的样式来改变ListBox选项的选中状态。这通常涉及到使用ControlTemplate和Trigger来指定当ListBoxItem处于不同状态时&#xff08;如被选中、鼠标悬停等&#xff09;的外观。ListBoxItem设置不同…

TikTok零播放的原因及解决方法

TikTok作为一个月活跃用户数已经超过15亿的社媒平台&#xff0c;巨大的流量不断吸引着用户加入&#xff0c;其中不乏需要推广获客的卖家。在运营推广工作中&#xff0c;视频播放量是重要的评估维度&#xff0c;如果出现零播放的情况&#xff0c;需要卖家找出原因并尽快解决。 一…

『Mysql集群』Mysql高可用集群之主从复制 (一)

Mysql主从复制模式 主从复制有一主一从、主主复制、一主多从、多主一从等多种模式. 我们可以根据它们的优缺点选择适合自身企业情况的主从复制模式进行搭建 . 一主一从 主主复制 (互为主从模式): 实现Mysql多活部署 一主多从: 提高整个集群的读能力 多主一从: 提高整个集群的…

vulnhub靶场之digitalworld.local: MERCY v2

一.环境搭建 1.靶场描述 MERCY is a machine dedicated to Offensive Security for the PWK course, and to a great friend of mine who was there to share my sufferance with me. :-) MERCY is a name-play on some aspects of the PWK course. It is NOT a hint for the …

快速排序-加餐

1.快排性能的关键点分析 决定快排性能的关键点是每次单趟排序后&#xff0c;key对数组的分割&#xff0c;如果每次选的key基本都二分居中&#xff0c;那么快排的递归树就是一棵均匀的满二叉树&#xff0c;性能达到最佳。 但是在实践中虽然不可能每次都是二分居中&#xff0c;…

[CTF夺旗赛] CTFshow Web13-14 详细过程保姆级教程~

前言 ​ CTFShow通常是指网络安全领域中的“Capture The Flag”(夺旗赛)展示工具或平台。这是一种用于分享、学习和展示信息安全竞赛中获取的信息、漏洞利用技巧以及解题思路的在线社区或软件。参与者会在比赛中收集“flag”&#xff0c;通常是隐藏在网络环境中的数据或密码形…

面向对象--继承

文章目录 1. 继承概念及定义&#xff1a;继承的定义&#xff1a;继承关系和访问限定符&#xff1a;继承基类成员访问方式的变化 &#xff08;在派生类中访问方式&#xff09; 2. 基类和派生类对象赋值转换3 .继承中的作用域4. 派生类的默认成员函数5. 继承与友元6. 继承与静态成…

《Python爬虫逆向实战》内存漫游

所谓内存漫游&#xff0c;就是说我们可以在浏览器内存中随意检索任何想要的数据。在JS逆向过程中&#xff0c;最麻烦和最浪费时间的步骤就是跟值。本篇文章介绍内存漫游工具能够帮助我们快速定位某个加密值的生成位置&#xff0c;即可以直接搜索变量的值(value)&#xff0c;而不…

【Linux】Linux进程基础

1.进程介绍与概念 进程的本质是在计算机内存中运⾏的程序&#xff0c;但是这⼀个概念太过于⼴泛 每个应用程序运行于现代操作系统之上时&#xff0c;操作系统会提供一种抽象&#xff0c;好像系统上只有这个程序在运行&#xff0c;所有的硬件资源都被这个程序在使用。这种假象…

jenkins 插件Publish Over SSH (sskey) 同步文件夹

一、安装插件 Publish Over SSH SSH Pipeline Steps 二、添加sshkey 将ssh免密登录的私钥新建到 二、准备目录 源&#xff1a;images 目标&#xff1a;/root/images2 流水线脚本 pipeline {agent anystages {stage(Dest) {steps {script{def remote [:]remote.name tstr…

Go 语言应用开发:从入门到实战

Go 语言应用开发&#xff1a;从入门到实战 引言 Go&#xff08;Golang&#xff09;是由 Google 开发的一种开源编程语言&#xff0c;设计初衷是提高编程效率&#xff0c;尤其是在高并发场景下表现出色。Go 语言以其简洁、易学、高效并发的特性&#xff0c;逐渐成为开发者的首…

【LeetCode每日一题】——1588.所有奇数长度子数组的和

文章目录 一【题目类别】二【题目难度】三【题目编号】四【题目描述】五【题目示例】六【题目提示】七【题目进阶】八【解题思路】九【时间频度】十【代码实现】十一【提交结果】 一【题目类别】 前缀和 二【题目难度】 简单 三【题目编号】 1588.所有奇数长度子数组的和 …

【fisco学习记录】搭建第一个单群组联盟链

前提&#xff1a;操作系统Windows11&#xff0c;安装wsl&#xff1a;Windows11安装wsl并迁移记录_adduser: please enter a username matching the regu-CSDN博客 一、 安装依赖 安装ubuntu依赖 sudo apt install -y openssl curl 二、创建操作目录, 下载安装脚本 ## 创建操…

一文介绍SQL标准1986~2023的演变

SQL标准1986年制定第一版&#xff0c;到最新的2023版&#xff0c;已经有38年的历史&#xff0c;现在依然是计算机非常活跃的语言&#xff0c;50%的程序员都能掌握SQL&#xff0c;数据分析师也是SQL的主要使用人员之一。 从早期的基本语法&#xff0c;到融合了XML、JSON等复杂数…

Qt- JSONXML

1. JSON概述 JSON&#xff08;JavaScript Object Notation, JS 对象简谱&#xff09;是一种轻量级的数据交换格式。 JSON 采用 key-value 的结构来组织和管理数据。 JSON 支持的数据类型&#xff1a; 数值型、字符串、布尔值、数组、对象等 JSON 来源于 JavaScript JSON应用…

UE5模型导入面板解读

1.Skeletal Mesh&#xff1a; 是一个可以让模型动起来的选项&#xff0c;适用于需要动画的角色或生物。是否勾选&#xff1a;如果导入的是一个需要动画的角色或生物&#xff0c;就勾选 Skeletal Mesh 选项&#xff1b;如果是静态物体&#xff0c;就不勾选。 2.Build Nanite&a…

【在Linux世界中追寻伟大的One Piece】Jsoncpp|序列化

目录 1 -> Jsoncpp 1.1 -> 特性 1.2 -> 安装 2 -> 序列化 3 -> 反序列化 4 -> Json::Value 1 -> Jsoncpp Jsoncpp是一个用于处理JSON数据的C库。它提供了将JSON数据序列化为字符串以及从字符串反序列化为C数据结构的功能。Jsoncpp是开源的&#xf…