Amazon SageMaker测评

Amazon SageMaker测评

  • 1 前言
  • 2 功能体验
    • 2.1 构建域
    • 2.2 上传数据集
    • 2.3 设置 SageMaker Canvas
    • 2.4 构建、训练与分析 ML 模型
    • 2.5 生成预测模型
  • 3 评价及建议


(声明:本篇文章授权活动官方亚马逊云科技文章转发、改写权,包括不限于在
亚马逊云科技开发者社区、知乎、自媒体平台、第三方开发者媒体等亚马逊云科技官方渠道)

1 前言

2023亚马逊云科技 re:Invent上,发布了 Amazon SageMaker 的五项新功能,旨在加速构建、训练和部署大型语言模型和其他基础模型,以帮助用户更快地进行模型开发和应用部署,提供更强大的工具和资源。对于该产品的新功能,我进行了实际体验,在下文会详细讲述体验内容及感受。

打开亚马逊云科技的网站,搜索一下Amazon SageMaker就能直接进入这个功能的主页面了。作为第一次使用这个功能的新手,参考的文档是官方给出的教程,如下图1-1所示,我选择的是无代码:ML,即在不编写代码的情况下生成机器学习预测。教程很详细,给出了每一步的步骤并截屏,但是有一些功能截图与操作与实际界面不太符合,后续会详细说明,接下来我就从构建域开始体验这个功能并给出我的一些感受。

在这里插入图片描述

2 功能体验

2.1 构建域

构建域这边忘记截屏了,但是在进入主界面后右边有个非常醒目的“配置个人域”可以选择,并且其按钮是黄色的,视觉上一眼就能看到,入门也比较简单,在点击这个按钮后就会自动构建SageMaker域(如图2-1),大约等了十分钟左右就构建完成可以进行导入数据等下一步操作。

图2-1

2.2 上传数据集

构建完成后搜索SageMaker Canvas进入主页面后,点击图3-1位置处的按钮"Launch SageMaker Canvas"就能自动构建SageMaker Canvas

图3-1

如图3-2,就是正在构建中,大约等15分钟左右就能进入主页面了(图3-3)。

图3-2


按照教程,接下来就是上传数据后构建、训练与分析 ML 模型,这里我就选择下载官方教程中的两个数据product_descriptionsshipping_logs后搜索进入S3控制台后进入SageMaker Canvas创建的默认桶,并上传刚刚下载的数据(图3-4)。


图3-5和图3-6分别代表是上传中和上传成功的截图,这样数据集就可以在后续操作中被访问到。上传数据响应速度也很快,即使数据量比较大也没有等待很久才能上传成功。

在这里插入图片描述

2.3 设置 SageMaker Canvas

接下来就是和官方操作手册有一些些不同之处了。当重新打开canvas准备设置 SageMaker Canvas时,在操作手册中是这么写的:“在 SageMaker Canvas 界面上,选择左侧窗格中的 Datasets(数据集),然后选择 + Import(+ 导入)”但是在打开页面后,左侧窗格并没有找到Datasets,所以我选择了Data Wrangler(如图4-1)并选择其中的Datasets页面,准备将数据导入,但是在我的页面上没有"Import"按钮,只有"Create"按钮(如图4-2)点击按钮后,由于我下载的数据是.csv格式的,所以我选择新建Tabular,因为在Tabular下方有提示CSV

图4-1

在这里插入图片描述
然后按照操作手册,在Data Source中选择Amazon S3(图4-3),再选择前面包含上传数据的文件夹(图4-4)找到数据后即可上传,其操作简单,提示也很清晰,根据操作手册可以很轻松的完成这个步骤。

在这里插入图片描述
按照操作步骤应该是选择这两个下载好的数据集一起导入,但是提示列数不相同,无法导入(图4-5),不知道是不是升级了一下功能所以有些限制,所以我就回到了Data Wrangler页面,直接选择了官方给出的数据集进行合并。
在这里插入图片描述

按照教程,在合并页面首先选择canvas-sample-shipping-logs.csv这个数据,并拖拽到右边的操作台上,点击这个文件,可以看到如图所示,每一列都进行了可视化操作,对每列的数据进行统计,并画出了分布图,将鼠标移动到每列蓝色的数据条上还能展现其具体数值(图4-6至图4-9),感官上来说可以更直观的对一个大批量的数据有个了解,在其它产品中暂时还没有类似的功能,感觉很新颖也很有价值。
在这里插入图片描述

图4-7

图4-8

然后选择内连接,ProctedId作为合并列,但是依然没有成功,错误信息如下图4-9所示。

图4-9

于是我选择将product_descriptions.csv导入数据集product_descriptions,将shipping_logs.csv导入数据集shipping_logs,再将这两个数据集进行合并,依然报错,报错信息(图4-10)。

图4-10

由于报错提示是无法预览合并的数据,于是我直接忽略这个报错,点击左下角的Import data,然后保存为ConsolidatedShippingData(由于之前试验过了两次,所以这里自动帮我后面加了(2)区分)(图4-11)。

图4-11

2.4 构建、训练与分析 ML 模型

接下来就是构建、训练与分析 ML 模型了,同样,与操作手册不同的是,在左侧页面中没有找到"Models"窗格,但由于要新增一个模型,所以我选择左侧窗格中的"My models"后点击新建模型按钮(图5-1)。

图5-1

选择新建模型后跳出的界面是可以选择模型类型,不同的问题需要用不同的模型去解决分析,这里可以看到有四种类型的问题:预测分析图片分析文本分析 以及 微调基础模型。(图5-2)这是我觉得这个功能最大的亮点,在后续的评价章节中会详细讲述原因。这里选择第一个:预测分析,然后点击创建。

图5-2

第一步
设置输入数据(Select),选择刚刚合并的数据集(图5-3)后选择 Select dataset进入下一步骤:Build
在这里插入图片描述

第二步
构建模型(Build)中,可以选择目标列,也就是选择我们需要预测的数据,这里选择ActualShippingDays字段,即预测货物到达目的地所用的时间(图5-4)。由于SageMaker Canvas 会自动尝试推理问题类型(图5-5),所以他会在检测到时间后将该问题推理为时间序列预测类型问题,但客户想知道的是所需时间,是一个具体的数字,因此在点击Configue model后可以在"Model type"中选择我们需要的类型,如果不知道具体选择哪个类型,在"Model type"中也有相对应的提示,举例说明该类型要解决的具体问题是什么,以供我们更加准确的选择模型,对新手来说很方便也很友好。

在这里插入图片描述

同时我们可以去掉一些不相关的字段,然后就可以选择构建模型了,这里有两种可选:Quick Build(快速构建)Standard Build(标准构建)以满足不同的需求(图5-6)。如果想大致预测一下的话就可以选择快速构建,15分钟内就可以构建出一个模型,如果想要精准预测就可以选择标准构建,提供更加准确的模型。这个分类可以满足不同的需求,也是这个功能中的一个特别之处。
在这里插入图片描述
等待大约7-8分钟就有结果,其中有三个页面:预览Overview(图5-7、图5-8)得分Score(图5-9)高级指标(图5-10、图5-11)。在预览页面,SageMaker Canvas 会显示列影响或每个输入列在预测目标列中的预计重要性,即左侧的字段及其百分比。

图5-7

图5-8

在得分页面,可以看到代表 ActualshippingDays 最佳拟合回归直线的图形(图5-9)。

图5-9

在高级指标页面上显示不同的指标,有 R2平均绝对误差(MAE)平均绝对百分比误差(MAPE),以及均方根误差(RMSE)(图5-10),还可以看到误差密度图(图5-11)。

图5-10

图5-11

2.5 生成预测模型

然后点击Predict生成预测模型,与操作手册不同的是,这里可以选择Automatic(图6-1)后选择前面合并的数据集(图6-2)可以进行自动预测,或者选择Manual再导入数据集,也可以生成预测结果(图6-3)。

图6-1

图6-2

图6-3

3 评价及建议

在使Amazon SageMaker从零开始,预测数据的过程中,让我感觉非常的简便,即使是第一次接触,跟着操作手册一步一步也能完成预测,同时对于没有机器学习背景的用户来说非常友好,因为在很多操作按钮以及选项下都有提示字样,让用户在使用的适合不会非常茫然,同时操作界面非常清晰,页面转跳也很快。

在功能方面,上文提到在选择创建模型的类型时,有一个选项是微调基础模型,我觉得这是这个产品最大的亮点,因为大模型训练使用的都是其它数据进行预测,如果我作为一个企业的负责人,企业内有很好的数据能够进行训练,那么微调基础模型可以提升其预测的准确度,更符合我们的期望值。

另一个产品的亮点是其在构建模型时,会给出一栏:Correlation to target,能够通过这个数值来判断这个字段对该模型的影响程度,以它给出的解释,如果该值为负数,那么这个字段就是对模型有消极影响,也可以理解为对预测模型没有什么帮助的字段,那么我们就可以通过这个字段的值去取消勾选一些字段,降低预测时间,提高效率(图7-1)。

在使用过程中,也发现了一些小瑕疵:比如功能栏的宽度是固定的,有时页面上的图片无法完整显示只能通过缩放页面来使其完整展示,另一处就是如果该产品支持自定义底色就更好了,这样浏览器页面是暗黑系的适合,界面会变得更加清晰。

总体来说是一个非常高效,对新手非常友好的产品,即使不写代码也能通过可视化界面进行机器学习预测

图7-1

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/247817.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

国标级联/流媒体音视频平台EasyCVR设备录像下载异常该如何解决?

视频监控TSINGSEE青犀视频平台EasyCVR能在复杂的网络环境中,将分散的各类视频资源进行统一汇聚、整合、集中管理,在视频监控播放上,视频安防监控汇聚平台可支持1、4、9、16个画面窗口播放,可同时播放多路视频流,也能支…

【渗透测试】常用的8种火狐插件

1、Max HacKBar 推荐理由:免费的hackbar插件,可快速使用SQL注入、XSS和Bypass等payload进行测试,可进行多种编码和解码,安装后F12即可使用。 2、FoxyProxy Standard 推荐理由:FoxyProxy是一个高级的代理管理工具&am…

世界5G大会

会议名称:世界 5G 大会 时间:2023 年 12 月 5 日-12 月 8 日 地点:河南郑州 一、会议简介 世界 5G 大会,是由国务院批准,国家发展改革委、科技部、工 信部与地方政府共同主办,未来移动通信论坛联合属地主管厅局联合 承办,邀请全球友好伙伴共同打造的全球首个 5G 领域…

【Stable Diffusion】在windows环境下部署并使用Stable Diffusion Web UI---通过 Conda

本专栏主要记录人工智能的应用方面的内容,包括chatGPT、AI绘图等等; 在当今AI的热潮下,不学习AI,就要被AI淘汰;所以欢迎小伙伴加入本专栏和我一起探索AI的应用,通过AI来帮助自己提升生产力; 订阅…

C++执行系统命令的三种方式

C 执行系统命令可以使用以下几种方法: 1. 使用 system() 函数 system() 函数会调用操作系统的命令行处理器(如 /bin/sh)来执行命令。该函数的语法如下: int system(const char *command);其中,command 参数指定要执…

uniapp点击按钮,防止按钮多次点击多次触发事件【防抖操作】

图片、 一、在根目录下新建common文件并创建common.js文件,输入下面代码 // 防止处理多次点击function noMultipleClicks(methods, info) {// methods是需要点击后需要执行的函数, info是点击需要传的参数let that this;if (that.noClick) {// 第一次点…

外包干了2年,技术退步明显...

📢专注于分享软件测试干货内容,欢迎点赞 👍 收藏 ⭐留言 📝 如有错误敬请指正!📢交流讨论:欢迎加入我们一起学习!📢资源分享:耗时200小时精选的「软件测试」资…

用EasyStreamingServer将MP4模拟成RTSP流无声音的问题,可以改用EasyDarwin做文件模拟RTSP实时流,有声音!

之前有一篇博客介绍用EasyStreamingServer将文件模拟成RTSP实时流,提供给类似于智能分析服务、NVR等做实时录像《用软件模拟IPC的RTSP流,对接烟火识别算法服务,做实时的烟火检测、人员入侵检测、抽烟检测等算法》 但最近有人反馈MP4有声音&a…

SpringMVC异常处理机制

2.1 异常描述 在J2EE项目的开发中,不管是对底层的数据库操作过程,还是业务层的处理过程,还是控制层的处理过程,都不可避免会遇到各种可预知的、不可预知的异常需要处理。每个过程都单独处理异常,系统的代码耦合度高&a…

批发订货程序推荐 订货系统哪个好

订货系统是一种企业管理软件,可以让批发商、门店实时掌握客户订单的进度和完成情况,提高企业与客户之间的沟通效率,减少错误,节省时间和成本。因此,目前很多企业会选择订货系统来帮助提高业务效率,但目前市…

Vue脚手架 Vue CLI安装

目录 0.为什么要安装Vue CLI脚手架 1.配置方法 1.全局安装 (一次) 2.查看Vue版本(一次) 报错:出现禁止运行脚本 3.创建项目架子(可多次) 报错npm err! 问题:已知npm换过国内源,且进度条…

数据结构 | DFSBFS,Prim代码

树的DFS&BFS prim算法 图的DFS和BFS DFS

josef约瑟 电压继电器 DY-23C/60C 柜内安装,带板前接线底座

DY-20C、20D系列电压继电器型号: DY-21C电压继电器; DY-26C电压继电器; DY-22C电压继电器; DY-23C电压继电器; DY-28C电压继电器; DY-24C电压继电器; DY-29C电压继电器; DY-25C电压继电器; DY-27C电压继电器; DY-21D电压继电器; DY-26D电压继电器; DY-23D电压继电…

AI日报:谷歌Gemini Pro即将面向企业和开发者

文章目录 总览Gemini介绍 模型能力产品API其他产品Imagen2和其他新闻Duet AI 总览 现在,您可以免费访问Gemini Pro的API,这是谷歌最新大型语言模型的第一个版本。 Gemini 介绍 谷歌通过其API让企业和开发者第一次看到了其最强大的大型语言模型Gemini。…

数据分析为何要学统计学(11)——如何进行时间序列分析

时间序列是由随时间变化的值构成,如产品销量、气温数据等等,该数据集合是个有序序列,除了数值,没有其他因素。通过对时间序列展开分析,能够回答如下问题: (1)被研究对象的活动特征是…

DataFunSummit:2023年数据科学在线峰会-核心PPT资料下载

一、峰会简介 数据会说谎?如何正确的挖掘并使用数据?前沿的科学实验如何做?实验又是如何欺骗你的?数据中台如何发挥功效?用户增长有捷径吗?数据科学的最佳实践有哪些? 本次峰会共包含了&#…

四十六、Redis哨兵

目录 一、哨兵的作用及原理 1、哨兵的结构和作用如下: 2、服务状态监控 3、选举新的master 4、小结 二、RedisTemplate的哨兵模式 一、哨兵的作用及原理 Redis提供了哨兵(Sentinel)机制来实现主从集群的自动故障恢复。 1、哨兵的结构和作…

实用干货:再见ElementPlus,我有更好的了

大家好,我是大澈! 本文约1200字,整篇阅读大约需要3分钟。 感谢关注微信公众号:“程序员大澈”,免费领取"面试大礼包"一份,然后免费加入问答群,从此让解决问题的你不再孤单&#xff…

EasyExcel读取Excel数据(含多种方式)

目录 EasyExcel简介 使用EasyExcel进行读数据 引入依赖: EasyExcel提供了两种读取模式 使用 监听器 读取模式 1.创建一个实体类 2.创建监听器 代码 使用 同步读 读取模式 1.创建一个实体类 2.代码 添加导入数据库的逻辑 其实官方文档讲得很清楚&#xff…

基于YOLOv7算法的高精度实时水果目标检测识别系统(PyTorch+Pyside6+YOLOv7)

摘要:基于YOLOv7算法的高精度实时水果目标检测系统可用于日常生活中检测与定位苹果(apple)、香蕉(banan)、葡萄(grape)、橘子(orange)、菠萝(pineapple&#…