【大厂AI课学习笔记】【2.1 人工智能项目开发规划与目标】(4)数据准备的流程

今天学习的是数据准备的流程。

我们已经知道,数据准备占了AI项目超过一半甚至79%的时间。

那么数据准备,都做些什么,有哪些流程。

1.数据采集

  • 观测数据
  • 人工收集
  • 调查问卷
  • 线上数据库

2.数据清洗

  • 有缺失的数据
  • 有重复的数据
  • 有内容错误的数据,例如逻辑错误、格式错误
  • 有不需要的数据

3.数据标注

数据标注即通过分类、画框、标注、注释等,对图片、语音、文本等数据进行处理,标记

对象的特征,以作为机器学习标签的过程。

 4.数据划分

  • 训练集
  • 测试集
  • 一般8:2或者7:3,训练集的数据较大

5.数据验收

  • 合法性
  • 准确性
  • 完整性
  • 一致性

延伸学习:

1. 数据采集

  • 确定数据源:根据业务需求,确定需要采集数据的来源,如数据库、API、日志文件、传感器等。
  • 设计采集策略:制定数据采集的频率、方式(如实时采集、批量采集)以及数据存储格式。
  • 实施采集:编写或使用现成的工具来从数据源中抓取数据。

示例

  • 电商网站通过日志系统收集用户的浏览和购买记录,为推荐系统提供数据。
  • 智能家居设备通过传感器实时采集温度、湿度等数据,用于智能控制。

2. 数据清洗

  • 去除重复数据:识别并删除重复的记录。
  • 处理缺失值:使用均值、中位数、众数等统计方法填充缺失值,或根据算法预测缺失值。
  • 纠正错误值:通过数据验证和逻辑规则识别并更正错误的数据。
  • 格式化数据:将数据转换为统一的格式,如日期、时间戳等。

示例

  • 在医疗数据分析中,清洗掉由于设备故障产生的异常血压读数。
  • 在金融领域,处理由于系统故障导致的交易数据中的缺失值。

3. 数据标注

  • 定义标注规则:根据业务需求,制定数据标注的标准和规则。
  • 实施标注:人工或使用自动化工具对数据进行标注。
  • 标注质量检查:验证标注的准确性,确保数据质量。

示例

  • 在图像识别项目中,人工标注图片中的物体类别(如猫、狗、汽车等)。
  • 在语音识别中,对音频数据进行文本标注,用于训练语音转文字模型。

4. 数据划分

  • 随机划分:将数据随机划分为训练集、验证集和测试集。
  • 分层抽样:确保每个子集中的数据分布与整体数据分布一致。
  • 时间序列划分:对于时间序列数据,按照时间顺序进行划分。

示例

  • 在股票价格预测项目中,按照时间序列划分训练集和测试集,确保模型能够学习到时间序列中的模式。
  • 在图像分类任务中,随机划分图像数据,但确保每个类别在训练集和测试集中都有代表。

5. 数据验收

  • 数据质量检查:验证数据的完整性、准确性和一致性。
  • 业务需求符合性检查:确保数据满足业务需求和项目目标。
  • 数据安全性检查:确保数据在处理、存储和传输过程中符合安全标准。

示例

  • 在智能客服项目中,验收阶段发现部分用户对话数据存在隐私泄露风险,于是进行数据脱敏处理。
  • 在推荐系统项目中,验收阶段发现数据集中缺少关键的用户行为数据,于是重新采集这部分数据。

6. 数据交付

  • 数据打包:将数据整理成适当的格式和文件结构,便于模型训练和部署。
  • 数据传输:安全地将数据传输给模型训练团队或存储到指定位置。
  • 数据文档编写:提供数据字典、数据说明文档等,帮助使用者理解数据。

示例

  • 在自然语言处理项目中,将清洗和标注后的文本数据打包成CSV格式,并附带数据字典说明每个字段的含义,然后交付给模型训练团队。
  • 在图像识别项目中,将图像数据和对应的标注文件整理成特定的文件夹结构,并通过加密方式传输给远程服务器上的模型训练环境。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/392175.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

CSS的注释:以“ /* ”开头,以“ */ ”结尾

CSS的注释:以“ /* ”开头,以“*/”结尾 CSS的注释: 以“ /* ”开头,以“ */ ”结尾 在CSS中,注释是一种非常重要的工具,它们可以帮助开发者记录代码的功能、用法或其他重要信息。这些信息对于理解代码、维护代码以及与他人合作都…

SpringBoot实现OneDrive文件上传

SpringBoot实现OneDrive文件上传 源码 OneDriveUpload: SpringBoot实现OneDrive文件上传 获取accessToken步骤 参考文档:针对 OneDrive API 的 Microsoft 帐户授权 - OneDrive dev center | Microsoft Learn 1.访问Azure创建应用Microsoft Azure,使…

Sora 文生视频提示词实例集 2

Prompt: Historical footage of California during the gold rush. 加利福尼亚淘金热期间的历史影像。 Prompt: A close up view of a glass sphere that has a zen garden within it. There is a small dwarf in the sphere who is raking the zen garden and creating patter…

Ubuntu 20.04 安装RVM

RVM是管理Ruby版本的工具,使用RVM可以在单机上方便地管理多个Ruby版本。 下载安装脚本 首先使下载安装脚本 wget https://raw.githubusercontent.com/rvm/rvm/master/binscripts/rvm-installer 如果出现了 Connection refused 的情况, 可以考虑执行以下命令修改dns,再执…

win10下wsl2使用记录(系统迁移到D盘、配置国内源、安装conda环境、配置pip源、安装pytorch-gpu环境、安装paddle-gpu环境)

wsl2 安装好后环境测试效果如下,支持命令nvidia-smi,不支持命令nvcc,usr/local目录下没有cuda文件夹。 系统迁移到非C盘 wsl安装的系统默认在c盘,为节省c盘空间进行迁移。 1、输出wsl -l 查看要迁移的系统名称 2、执行导出命…

配置oracle连接管理器(cman)

Oracle Connection Manager是一个软件组件,可以在oracle客户端上指定安装这个组件,Oracle连接管理器代理发送给数据库服务器的请求,在连接管理器中,我们可以通过配置各种规则来控制会话访问。 简而言之,不同于专用连接…

c入门第十八篇——支持学生数的动态增长(链表,指针的典型应用)

数组最大的问题,就是不支持动态的扩缩容,它是静态内存分配的,一旦分配完成,其容量是固定的。为了支持学生的动态增长,这里可以引入链表。 链表 在C语言中,链表是一种常用的数据结构,它由一系列…

深入解析鸿蒙系统的页面路由(Router)机制

鸿蒙系统以其独特的分布式架构和跨设备的统一体验而备受瞩目。在这个系统中,页面路由(Router)机制是连接应用各页面的关键组成部分。本文将深入探讨鸿蒙系统的页面路由,揭示其工作原理、特点以及在应用开发中的实际应用。 1. 实现…

使用Autodl云服务器或其他远程机实现在本地部署知识图谱数据库Neo4j

本篇博客的目的在于提高读者的使用效率 温馨提醒:以下操作均可在无卡开机状态下就可完成 一.安装JDK 和 Neo4j 1.1 ssh至云服务器 打开你的pycharm或者其他IDE工具或者本地终端,ssh连接到autodl的服务器。(这一步很简单如下图) 1.2 安装JDK 由于我…

gitlab代码控制平台搭建

docker-compose容器化gitlab docker-compose安装 # 官方链接(不推荐,太慢了) curl -L "https://github.com/docker/compose/releases/download/1.29.2/docker-compose-$(uname -s)-$(uname -m)" -o /usr/local/bin/docker-compose# 下面的官方链接会快一…

JAVA面试题基础篇

1. 二分查找 要求 能够用自己语言描述二分查找算法 能够手写二分查找代码 能够解答一些变化后的考法 算法描述 前提:有已排序数组 A(假设已经做好) 定义左边界 L、右边界 R,确定搜索范围,循环执行二分查找&#…

计算机网络——15套接字编程

套接字编程 Socket编程 Socket编程:应用进程使用传输层提供的服务才能够交换报文,实现应用协议,实现应用 TCP/IP:应用进程使用Socket API访问传输服务 地点:界面上的SAP 方式:Socket API 目标&#xff1…

鸿蒙开发系列教程(二十四)--List 列表操作(3)

列表编辑 1、新增列表项 定义列表项数据结构和初始化列表数据,构建列表整体布局和列表项。 提供新增列表项入口,即给新增按钮添加点击事件。 响应用户确定新增事件,更新列表数据。 2、删除列表项 列表的删除功能一般进入编辑模式后才可…

stable diffusion webui学习总结(2):技巧汇总

一、脸部修复:解决在低分辨率下,脸部生成异常的问题 勾选ADetailer,会在生成图片后,用更高的分辨率,对于脸部重新生成一遍 二、高清放大:低分辨率照片提升到高分辨率,并丰富内容细节 1、先通过…

Leetcode-429.N叉树的层序遍历

题目: 给定一个 N 叉树,返回其节点值的层序遍历。(即从左到右,逐层遍历)。 树的序列化输入是用层序遍历,每组子节点都由 null 值分隔(参见示例)。 示例 1: 输入&#xff…

Rocky Linux 下载安装

一、VMware Workstation下载安装 1、安装教程 VMware Workstation下载安装(含密钥) 二、VMware Workstation 创建虚拟机 1、创建教程 VMware Workstation 创建虚拟机 三、Rocky Linux 下载 1、下载官网 RockyLinux.org 2、选择X86架构_64位系统_DVD镜…

【C++初阶】第三站:类和对象(中) -- 日期计算器

目录 前言 日期类的声明.h 日期类的实现.cpp 获取某年某月的天数 全缺省的构造函数 拷贝构造函数 打印函数 日期 天数 日期 天数 日期 - 天数 日期 - 天数 前置 后置 前置 -- 后置-- 日期类中比较运算符的重载 <运算符重载 运算符重载 ! 运算符重载 …

JavaScript设计模式与开发实战

JavaScript设计模式与开发实践 第一章、面向对象的JavaScript 1.1 多态 类似java面向对象&#xff0c;通过继承共有特征&#xff0c;来实现不同方法。JavaScript的多态就是把“做什么”和“谁去做”分离&#xff0c;消除类型间的耦合关系。 他的作用就是把过程化的条件分支…

TIM编码器接口(编码器测速)

定时器编码器接口自动计次--------->对应手册14.3.12编码器接口模式 应用场景&#xff1a; 电机控制PWM驱动电机&#xff0c;编码器测电机速度&#xff0c;PID算法闭环控制 ------------------------------------------------------------------------------------------…

【Linux】程序地址空间 -- 详解 Linux 2.6 内核进程调度队列 -- 了解

一、程序地址空间回顾 在学习 C/C 时&#xff0c;我们知道内存会被分为几个区域&#xff1a;栈区、堆区、全局/静态区、代码区、字符常量区等。但这仅仅是在语言层面上的理解&#xff0c;是远远不够的。 如下空间布局图&#xff0c;请问这是物理内存吗&#xff1f; 不是&…