详解数据科学自动化与机器学习自动化

过去十年里,人工智能(AI)构建自动化发展迅速并取得了多项成就。在关于AI未来的讨论中,您可能会经常听到人们交替使用数据科学自动化与机器学习自动化这两个术语。事实上,这些术语有着不同的定义:如今的自动化机器学习,即AutoML,特指模型构建自动化。但是,数据科学家的工作内容并不仅止于此。简单地说,数据科学家从数据中获取信息,以解决现实世界中的问题;机器学习只是数据科学家的众多工作方法之一。 从数据预处理到解决方案部署,自动化贯穿数据科学生命周期的每个阶段。毋庸置疑,AutoML极大地提升了数据科学生命周期的自动化程度,尤其是在模型构建阶段。在大多数情况下,自动化主要针对最耗时、最复杂的任务,以降低任务难度,提高效率。借助先进的自动化技术,数据科学家可以将更多时间花在训练任务上:利用数据洞察为其服务的企业开发差异化解决方案。

数据生命周期中的自动化

在解决方案开发过程中,数据科学家完成的每一项任务都包括在数据科学生命周期中。于我们而言,我们需要关注数据科学家在构建AI模型时需要完成的任务。数据生命周期的每个阶段,都涉及到某种程度的自动化。鉴于AI构建过程中有几个步骤较为耗时,这一事实并不出人意料。

数据准备

假设数据科学家需要解决某一问题,则他们的首要任务就是收集和准备数据。通常情况下,数据准备包括将数据转换成正确格式、识别数据错误、以及修复数据异常。目前,数据准备任务已经实现部分自动化。数据科学家可以使用简单的探索法或第三方数据清理工具来清理数据。例如,探索法可以指定自动删除实际范围以外的任何数字。数据清理工具可以自动清理模式、执行统计分析,并根据需要完成其他准备步骤。 为何数据清理仍未实现完全自动化?主要原因是数据科学家需要经常对数据做出主观决策。另外,数据集可能会包含许多边缘数据;数据清理工具或探索法可能无法轻易解决这些问题。

数据探索

数据科学生命周期的下一阶段是数据探索。在这一阶段中,数据科学家使用可视化工具来获得数据概览。与第一阶段相同,数据探索阶段只能实现部分自动化。数据科学家可以自动创建图表,但图表分析仍需要其专业知识。

特征工程

特征工程正逐渐成为AutoML的一部分,并且可能有利于提升ML的自动化程度。特征工程是指从现有输入中创建新的输入变量,新的输入变量与您试图解决的问题相关。如果操作正确,特征工程可以促使模型关注数据中未明确呈现的重要变量,从而提升模型性能。 借助自动化,工具可以从各种表格、文本、地理空间和时间序列数据以及其他来源获得特征。这些工具可以快速评估数百个,甚至数百万个特征,并输出与模型最相关的特征。因此,在自动化的帮助下,数据科学家可以更高效地完成这些传统的人工选择任务。

模型构建

模型构建包括模型选择、验证和超参数优化(HPO)。模型构建可以完全实现自动化,这正是AutoML的真正亮点。AutoML工具可以循环使用同一组输入数据来训练各类模型,以选出性能最佳的模型。工具可以通过超参数优化和重复验证措施自动调整模型,以提高模型准确度。但是,AutoML模型仍会保持高准确性和高置信度,模型质量不会成为模型效率提高的代价。 关于自动化模型构建的更多信息,请参阅我们的文章“关于AutoML,其中包含了您想了解的一切信息。”

持续部署

数据科学生命周期并不止于部署阶段。在实践过程中,每个AI模型都需要持续维护。因此,建立一个再训练流程将是成功的关键。在这一阶段中,我们使用自动化工具为模型提供定期维护检查,以确保模型始终满足准确度和置信度阈值。虽然在这一阶段中保持人机协同仍然大有帮助,但以自动化取代完全人工的过程,可以提高问题解决效率。

一个自动化示例:Github Copilot

最近,Github Copilot软件成功上市,是AI自动化的一个现实示例。这款软件由OpenAI Codex提供支持,是一个AI配对程序员,可以帮助工程师编写代码。Github Copilot可以分析您正在开发的代码,在您输入代码时提示行或函数。该款软件旨在提供替代解决方案和测试用例,从而提高工作效率,降低复杂性。Github Copilot只是机器学习自 动化的最新激动人心的应用之一,可以极大地提高AI和工程的效率。

AI自动化的未来

当我们展望AI的未来时,数据科学自动化和AutoML可以告诉我们什么?首先,AI构建是一项具有挑战的任务,但已变得越来越容易。对自动化的需求无疑源于以下事实:实施AI解决方案需要时间、经费、专业知识等大量资源,而这通常导致许多小型企业望而却步。随着自动化工具的出现,准入门槛会降低,允许更多的参与者进入这一领域进行实验和创新。 随着AI和AutoML的发展,高质量训练数据的需求仍会存在,并且还会持续增长。AI从业者需要更多的数据来优化和修正机器学习模型,以及保持模型的实践性能。与外部数据供应商合作,可以为团队提供适合的工具、专业知识和流程,从而为实现长远的AI目标建立可扩展的数据流程。澳鹏(Appen)拥有目前最先进的AI辅助数据标注平台,其解决方案是获取高质量数据的最可靠来源,可以满足日益增长的数据需求。 数据科学家又会如何?机器是否会影响到对数据科学家的需求?当然不可能。数据科学家拥有机器无法比拟的高度专业化领域知识。定义和理解问题,并对数据进行假设等,都需要主观的专业知识。正如我们在软件工程中所看到的,当软件工程变得更容易时,软件工程师的需求只会上升;数据科学家当然也不例外。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/261257.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

excel统计分析——偏度、峰度

参考链接: 偏度与峰度的正态性分布判断 - 知乎 描述统计学 - 知乎 样本偏度(skewness)与随机变量的偏度及三阶统计量之间的关系和计算估计-CSDN博客 数据分析中如何衡量数据的分布 - 知乎 KURT 函数 - Microsoft 支持 SKEW 函数 - Microsoft 支持 Standard e…

Python中的函数

创建和使用 创建函数的语法如下: def 函数名(参数):代码块(函数体) 函数的参数 形参:在定义函数的时候传递的参数 实参:在调用函数时传递的参数 无参:没有任何参数 位置参数 实参的位置和形参一一对应,不能多也不…

PowerDesigner画模型工具下载安装及基本操作

进行大型项目代码开发之前,一般会进行模型设计,画概念模型(CDM)、逻辑模型(LDM)、物理模型(PDM)。下面说一下PowerDesigner画模型工具下载安装及基本操作 一、下载与安装&#xff1…

如何解决苹果应用商城审核拒绝的Guideline 2.3.1 - Performance问题

当您的应用程序在苹果应用商城审核过程中被拒绝时,苹果会向您发送一封邮件,其中提供了关于拒绝原因的详细信息。本文将深入探讨如何正确处理Guideline 2.3.1 - Performance问题,并提供解决方案和优化建议,以确保您的应用程序能够通…

LeetCode刷题--- 括号生成

个人主页:元清加油_【C】,【C语言】,【数据结构与算法】-CSDN博客 个人专栏 力扣递归算法题 http://t.csdnimg.cn/yUl2I 【C】 http://t.csdnimg.cn/6AbpV 数据结构与算法 http://t.csdnimg.cn/hKh2l 前言:这个专栏主要讲述递归递归、搜…

韩语中的一次多用-柯桥基础韩语学习

1.动词,写 일기를 쓰다 写日记 2.动词,戴(帽子,眼镜,口罩) 안경을 쓰다 戴眼镜 3.动词,使用(材料,道具,手段) 세제를 쓰다 使用洗剂 4.动词&am…

【openwrt学习笔记】IPV6 ND协议学习和socket编程

目录 一、参考链接二、学习目标三、代码解析3.1 仅解析NA报文保存设备mac和ipv6地址信息3.1.1 open_ns_socket3.1.2 recv_ns_pack 3.2 解析NA和NS报文中DAD报文保存设备mac和ipv6地址信息3.2.1 open_ns_na_socket3.2.2 recv_ns_na_pack 四、代码优化4.1 BPF参考学习资料4.2 代码…

软件工程--设计工程--学习笔记(软件设计原则、软件质量属性设计、架构风格......)

软件设计在软件工程中处于技术核心,其目的是把需求分析模型转变为设计模型,以知道软件的实现,本章讲解软件设计的基本原则和基本实践 本文参考教材:沈备军老师的《软件工程原理》 软件设计概述 软件设计分为两个阶段&#xff0…

SpringBoot之IOCDI的详细解析

3.3.2 IOC详解 通过IOC和DI的入门程序呢,我们已经基本了解了IOC和DI的基础操作。接下来呢,我们学习下IOC控制反转和DI依赖注入的细节。 3.3.2.1 bean的声明 前面我们提到IOC控制反转,就是将对象的控制权交给Spring的IOC容器,由…

计算机网络实验速成

目录 网络实验速成 自动连接类型: 指示灯状态说明: 显示接口: 放置注释信息: 配置计算机: 同理,配置服务器: 配置路由器: router0 配置: router1 配置&…

2024年建立电子商务知识库的终极指南

Insider Intelligence报告称,2020年全球电子商务购物市场规模达到了近4万亿美元,并且没有放缓增长的迹象。 随着亚马逊通过一流的产品、快速的配送、无忧的退款等优势主导数字领域,电子商务行业的竞争变得越来越激烈。随着每年有越来越多的公…

第五节TypeScript 运算符

一、描述 运算符用于执行程序代码运算。 二、运算符主要包括: 算术运算符逻辑运算符关系运算符按位运算符赋值运算符三元/条件运算符字符串运算符类型运算符 1、算术运算符 y5,对下面算术运算符进行解释: 运算符 描述 例子 x 运算结果…

自己制作指定格式的bmp文件

1、CAD绘制形状,设置区域方便接下里操作 2、导出为pdf(导出的png或者Jpg极度不清晰) 打印->自己设置->框选范围 3、截图截取制作的bmp范围,保存为bmp或png 我这里是通过snagit保存为png的(也可以直接保存为bm…

基于华为atlas的烟火检测实战

1、下载官方yolov5的v6.1版本 git clone https://github.com/ultralytics/yolov5.git git checkout v6.1 2、烟火数据集准备: tree -d Images/train/目录下图片 Labels/train/目录下标签 3、数据格式转化: 数据集采用labelimg标注,xml文件…

jmeter如何参数化?Jmeter参数化设置的5种方法

jmeter如何参数化?我们使用jmeter在进行测试的时候,测试数据是一项重要的准备工作,每次迭代的数据当不一样的时候,需要进行参数化,从参数化的文件中来读取测试数据。那么,你知道jmeter如何进行参数化吗&…

PHP-PhpSpreadsheet导出带图片方法

需求描述 导出表格&#xff0c;项目名称对应项目详情页面二维码。 实现方法 1&#xff0c;先将各个项目生成的二维码存放到了一个指定目录里面&#xff1b; 2&#xff0c;导出数据到excel表格 <?phpuse PhpOffice\PhpSpreadsheet\Spreadsheet; use PhpOffice\PhpSpread…

图像分割与修复

图像分割的方法 &#xff08;1&#xff09;传统的图像分割方法 &#xff08;2&#xff09;基于深度学习的图像分割方法 传统的图像分割方法 &#xff08;1&#xff09;分水岭法 &#xff08;2&#xff09;GrabCut法 &#xff08;3&#xff09;MeanShift法 &#xff08;4…

基于SpringBoot的校园电商物流云平台 JAVA简易版

目录 一、摘要1.1 项目介绍1.2 项目录屏 二、功能模块2.1 数据中心模块2.2 商品数据模块2.3 快递公司模块2.4 物流订单模块 三、系统设计3.1 用例设计3.2 数据库设计3.2.1 商品表3.2.2 快递公司表3.2.3 物流订单表 四、系统展示五、核心代码5.1 查询商品5.2 查询快递公司5.3 查…

[Unity错误解决]There are 2 audio listeners in the scene.

There are 2 audio listeners in the scene. Please ensure there is always exactly one audio listener in the scene. 从组件中找出包含 Audio Listener 的&#xff0c;只激活一个&#xff0c;其他的关掉

POI2012 PRE-Prefixuffix

P3546 [POI2012] PRE-Prefixuffix 题目大意 对于两个字符串 S 1 , S 2 S_1,S_2 S1​,S2​&#xff0c;如果将 S 1 S_1 S1​的一个后缀移动到开头后这个字符串变成了 S 2 S_2 S2​&#xff0c;则称 S 1 , S 2 S_1,S_2 S1​,S2​循环同构。 给定一个长度为 n n n的字符串 S S …