人工智能机器学习系统技术要求

一 术语和定义

1.1机器学习系统 machinelearningsystem

能运行或用于开发机器学习模型、算法和相关应用的软件系统。

1.2机器学习框架 machinelearningframework

利用预先构建和优化好的组件集合定义模型,实现对机器学习算法封装、数据调用处理和计算资源使用的软件库。

1.3机器学习服务 machinelearning service

利用机器学习模型算法及其系统作为工具为组织或个人提供一种其期望的便利的方式价值的IT服务。

注:机器学习算法服务是机器学习服务的一种,用于接受用户的应用请求,对输入数据进行处理,返回处理结果。

1.4模型编译器 model compiler

将机器学习模型定义的计算过程转换为能在特定人工智能计算资源上执行的代码序列的计算机程序。

注:本文件中定义的模型编译器仅用于机器学习领域。

1.5资源池 resource pool

各类系统资源的集合体。

1.6作业 job

机器学习训练或推理任务的逻辑组合。

注:一个作业属于且仅属于某一个资源池,一个作业包括一个或多个任务。

1.7任务 task

实现特定目标所需要的活动。

注:任务用于完成一个相对独立的业务功能,一个任务属于且仅属于一个作业。

二 系统框架

机器学习系统包含机器学习运行时组件,机器学习框架,机器学习服务组件,工具和运维管理。提供机器学习应用的开发,训练,部署,运行和管理能力,机器学习系统框架图如下图

2.1机器学习运行组件

机器学习运行时组件是为保障机器学习应用按照预期在特定机器学习系统上运行所必需的软件环境,包括设备驱动软件和算子库。

设备驱动软件负责机器学习各种类型任务的调度与执行,包括为机器学习任务分配提供资源管理通道,为应用提供存储管理、设备管理、执行流管理、事件管理和核函数执行功能。算子库提供机器学习算法在设备执行调度的最小计算单元,包括面向机器学习计算任务的通用算子和面向特定设备计算加速任务的优化算子。

2.2 机器学习框架

机器学习框架包含模型训练,模型推理及算法库三个模块,为机器学习应用开发、优化、验证和部署过程提供工具支撑。

模型训练用于机器学习应用设计开发阶段,该模块提供自动微分、损失函数和优化器等调用接口,提供模型定义、自动分布式并行训练和多硬件后端适配等能力。

模型推理用于机器学习应用的验证部署阶段,该模块提供模型加载、微调、性能评估和转换等接口,提供模型部署及推理加速等能力。

算法库面向机器学习训练、推理和模型性能优化任务,提供预先优化好的算法,以封装函数库的方式供用户调用,提升机器学习模型开发、优化、验证和部署的效率。

2.3 机器学习服务组件

机器学习服务是人工智能行业应用访问、利用机器学习能力和资源的主要方式,机器学习服务组件支持工作流管理、通用算法模板和应用部署。机器学习系统通过服务组件,进行服务部署、运行环境准备、运行状态汇报和服务容错等,并提供服务调用接口,供各领域上层应用调用。为满足应用场景的需求,机器学习系统可提供文本、图像、音频和视频及其他类型智能化操作的算法服务。

2.4 工具

2.4.1 数据管理工具

数据管理工具提供人工智能数据的生存周期,包含定义、采集、预处理、模型构建、系统部署、系统维护,数据退出和系统退出的管理能力。提供各类数据源,包括结构化,半结构化和非结构化数据的接入、标注和质量控制,中间数据的管理、最终数据的管理、元数据的管理和数据使用溯源等能力,支持对海量结构化、非结构化数据的预处理与特征挖掘。

2.4.2 模型管理工具

模型管理工具提供常用的机器学习模型及其变形,能按照一定的方式,如算法结构、应用范围,提供模型的分类检索:模型管理工具也可扩展支持模型导入、导出、更新、发布、迁移和版本控制等功能。在机器学习应用开发阶段,通过多模型组合开发、多模型集成、超参数设置和模型二次训练等方式支持模型优化与应用开发。

2.4.3 开发环境

开发环境是机器学习全流程开发工具链,支持模型开发、算子开发和应用开发三个主流程中的开发任务,提供模型可视化、算力测试和IDE单机仿真调试等功能。

2.4.4 模型编译器

模型编译器将计算过程的计算图和算子转换为环境兼容的中间表达或设备可执行的代码,支持编译优化、编译参数自动寻优、编译结果存储载入、自定义算子注册编译、模型格式转换等功能

2.5 运维管理

运维管理提供系统所需的基本运维(例如安装部署、扩展、监控、报警、健康检查、问题及故障定位升级和补丁、备份恢复和操作审计等)及管理功能(例如计算资源管理、权限管理、用户管理、日志管理,配置管理,安全管理等)

三 可靠性要求

可靠性要求包括:

  1. 应具备跟踪任务的执行状态,并对异常任务进行提示的能力;

  2. 应具备资源受限或系统失效后持续提供或恢复服务的能力,如具备历史版本回滚、框架提供参数的保存能力等;

  3. 应具备容错机制,具备系统在检测出异常输入或危险操作时的错误提示功能;

  4. 应具备对误操作的抵御能力,确保误操作后系统的正常运行;

  5. 应具备不同容量场景过载控制机制;

  6. 应具备系统故障诊断能力,如机器学习框架可保存关键运行数据以用于故障定位和恢复;

  7. 应具备系统故障隔离能力,如集群训练中,单一节点出现故障时可快速隔离;

  8. 宜具备系统状态文件的几余备份功能和容灾能力。

四 维护性要求

维护性要求包括:

a) 应具备数据集规模、均衡性、标注质量和污染情况对算法结果的影响分析功能;

b) 应具备在设计、实现和运行各阶段对应的性能度量指标和验证方法;

c) 应具备代码实现算法功能的正确性分析能力,包括代码规范性和代码漏洞检查;

d) 应具备系统实际运行中环境干扰的影响分析能力,包括噪声干扰和数据分布迁移等;

e) 宜具备异常数据的存储和导出能力。

五 兼容性要求

5.1 软件兼容性要求

软件兼容性要求包括:

a. 应具备软件服务兼容性,相互关联的软件服务能够正常运行,且在数据、信息和交互三个方面具有相互兼容的性质;

b. 不应依赖特定的软件运行环境;

c. 应具备系统运行的可移植性;

d. 应兼容主流操作系统,兼容多种编程语言;

e. 应兼容开源的通用接口,根据系统要求在最新版本中增强或优化;

f. 应具备模块间及模块内接口信息传递和互操作功能;

g. 应具备异源数据、异构数据库和新旧数据接口的转换功能;

h. 应兼容不同场景应用,兼容特定应用系统下的优化和扩展。

5.2 硬件兼容性要求

硬件兼容性要求包括:

a. 应兼容多种计算单元,例如CPU、GPU、FPGA和ASIC等;

b. 应兼容多种存储系统,例如分布式云存储和本地存储等;

c. 应兼容多种网络连接方式,例如以太网和InfiniBand网络;

d. 宜兼容多种计算平台,例如服务器、移动通信终端、平板式计算机和可穿戴设备等。

六 安全性要求

安全性要求包括:

a. 应提供对训练数据、部署模型、算法程序和服务接口的访问权限管理能力;

b. 应提供抵御对抗样本攻击和噪声污染的能力;

c. 应具备对访问用户的访问历史查询能力;

d. 应具备对权重文件的防篡改能力以及保护能力;

e. 应具备将任务详细状态输出到日志的能力;

f. 应具备对分布式任务的鉴别和加密通信能力;

g. 应具备部分模型的可解释能力;

h. 应具备部分模型的差分隐私训练能力;

i. 应具备部分模型和任务的稳健性评估能力;

j. 应屏蔽非法输人。

七 可扩展性要求

可扩展性要求包括:

a. 应具有标准格式的接口,降低维护和运行机器学习模型的成本;

b. 应具有模型部署到生产环境的标准流程,降低系统整合风险;

c. 应提供机器学习生存周期管理工具。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/681964.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

实时监控与报警:人员跌倒检测算法的实践

在全球范围内,跌倒事件对老年人和儿童的健康与安全构成了重大威胁。据统计,跌倒是老年人意外伤害和死亡的主要原因之一。开发人员跌倒检测算法的目的是通过技术手段及时发现和响应跌倒事件,减少因延迟救助而造成的严重后果。这不仅对老年人群…

特征交叉系列:FM和深度神经网络的结合,DeepFM原理简述和实践

从FM,FFM到DeepFM 在上两节中介绍了FM和FFM 这两种算法是推荐算法中经典的特征交叉结构,FM将特征交叉分解到底层属性,通过底层属性的点乘来刻画特征交叉的计算,而FFM引入特征域的概念,对不同的特征对所引用的底层属性…

Redis 单线程问题 BigKey问题

前言 简单的redis基础类型以及常用操作我们都也已经介绍过了 现在今天我们来谈谈redis对于单线程是需要怎么理解的 以及redis假设遇见大key我们需要怎么去查询和删除呢??? redis单线程 假设有个人现在问你一个问题:redis是单线程的还是多线程的 这个问题本身就不严谨 就像问…

植物大战僵尸杂交版2.0.88最新版+防闪退工具V2+修改工具+高清工具

植物大战僵尸杂交版,不仅继承原作的经典玩法,而且引入了全新的植物融合玩法,将各式各样的植物进行巧妙的杂交,孕育出前所未有、功能各异的全新植物。 创新的杂交合成系统 游戏引入了创新的杂交合成系统,让玩家可以将不…

每天CTF小练--ctfshow新手村

easy_base 密文:0XezFWZfNXafRjNlNXYit3dvh2cmR3Y 等号在前面,直接倒序后解码 ctfshow{base64_is_easy} 代码解: s 0XezFWZfNXafRjNlNXYit3dvh2cmR3Y print(s[::-1]) #翻转字符串 print(s[::-1]) #翻转字符串 print(s[::-1]) #翻转…

LLaSM:Large language and speech model

1.Introduction 级联方法使用ASR将语音输入转化为文本输入,语音到文本会导致信息损失,本文提出LLaSM,一个具有跨模态对话能力的大型语音与语言模型,能够理解和遵循语音与语言指令,借鉴LLaVA,利用预训练的语音模态编码器和大语言模型,使用Whisper作为语音编码器,将语音…

iOS18 新变化提前了解,除了AI还有这些变化

iOS 18即将在不久的将来与广大iPhone用户见面,这次更新被普遍认为是苹果历史上最重要的软件更新之一。据多方报道和泄露的消息,iOS 18将带来一系列全新的功能和改进,包括在人工智能领域的重大突破、全新的设计元素以及增强的性能和安全性。现…

Linux之文件操作

目录 第1关:文件的创建 任务描述 相关知识 文件的创建 编程要求 答案: 第2关:文件打开与关闭 任务描述 相关知识 文件的打开 文件的关闭 编程要求 答案: 第3关:文件读写操作 任务描述 相关知识 文件的写操作 文件的读…

Meta Llama 3 残差结构

Meta Llama 3 残差结构 flyfish 在Transformer架构中,残差结构(Residual Connections)是一个关键组件,它在模型的性能和训练稳定性上起到了重要作用。残差结构最早由He et al.在ResNet中提出,并被广泛应用于各种深度…

项目-双人五子棋对战:匹配模块的实现(3)

完整代码见: 邹锦辉个人所有代码: 测试仓库 - Gitee.com 模块详细讲解 功能需求 匹配就类似于大家平常玩的王者荣耀这样的匹配功能, 当玩家点击匹配之后, 就会进入到一个匹配队列, 当匹配到足够数量的玩家后, 就会进入确认页. 在这里, 我们主要实现的是1 - 1匹配功能, 首先先…

【Git】分支管理 -- 详解

一、理解分支 分支就是科幻电影里面的平行宇宙,当你正在电脑前努力学习 C 的时候,另一个你正在另一个平行宇宙里努力学习 JAVA。 如果两个平行宇宙互不干扰,那对现在的你也没啥影响。不过,在某个时间点,两个平行宇宙…

ApsaraMQ Copilot for RocketMQ:消息数据集成链路的健康管家

作者:文婷 引言 如何正确使用消息队列保证业务集成链路的稳定性,是消息队列用户首要关心的问题。ApsaraMQ Copilot for RocketMQ 从集成业务稳定性、成本、性能等方面帮助用户更高效地使用产品。 背景 消息队列产品通过异步消息的传递,来…

使用Qt对word文档进行读写

目录 开发环境原理使用的QT库搭建开发环境准备word模板测试用例结果Gitee地址 开发环境 vs2022 Qt 5.9.1 msvc2017_x64,在文章最后提供了源码。 原理 Qt对于word文档的操作都是在书签位置进行插入文本、图片或表格的操作。 使用的QT库 除了基本的gui、core、…

Bond网卡

一、Bond网卡 1.1 Bond网卡概述 Bond网卡是指使用 Linux 系统中的 Bonding 技术创建的虚拟网络接口。 Bonding 技术允许将多个物理网卡(也称为接口或端口)绑定在一起,形成一个虚拟的网络接口,以增加网络带宽、提高网络容错性和…

【ARM Cache 及 MMU 系列文章 6 -- Cache 寄存器 CTR | CLIDR | CCSIDR | CSSELR 使用详解 1】

文章目录 Cache 常用寄存器Cache CSSELR 寄存器Cache CSSELR 使用场景Cache CSSELR 操作示例 Cache CLIDR 寄存器LoUU 介绍LoUU 使用 LoUIS 介绍CLIDR 使用 Cache CCSIDR 寄存器 Cache 常用寄存器 ARM Cache 常用到寄存器有以下几个: CSSELR, Cache Size Selectio…

VS2022,lib调用dll工程的一个函数

lib工程本身是一个静态库工程,没有链接器设置。然而,我们依然可以在lib工程中调用DLL工程中的函数,只需要确保头文件正确导入,并在最终使用lib的可执行文件项目中正确链接DLL的.lib文件。下面是一个详细的步骤说明: 假…

Windows 宿主机访问 VirtualBox 虚拟机中创建的 docker 容器中的 mysql8.0 的数据

一、场景需求 在开发环境中,一般使用 windows 系统进行开发,但需要在 linux 系统中创建运行 mysql8.0 的 docker 容器中进行测试(win10特定版本或win11才能安装 docker),为了方便还需要在 windows 系统中通过 SQLyog …

python ---requests

python包管理工具 pip 若发现报错,则可以通过 -i 命令指定软件源 requests库安装 通过 pip ,如上 或通过 pycharm 搜索 requests ,并安装即可 下载成功的证明 requests库使用 模拟 http 重要参数如下 如何模拟发包 支持模拟各种 http meth…

前端_防抖节流

目录 一、防抖(debounce) 1.使用场景 2.js代码实现 3.lodash工具库使用 二、节流(throttle) 1.使用场景 2.js代码实现 3.lodash工具库使用 前端做项目,为了防止用户因为网络不好数据响应慢,导致进行…

ARM的工作模式

ARM的几种工作模式 User : 非特权模式,大部分任务执行在这种模式 FIQ : 当一个高优先级(fast) 中断产生时将会进入这种模式IRQ : 当一个低优先级(normal) 中断产生时将会进入这种模式 Supervisor(SVC) : 当复位或软中断…