从0开始学习机器学习--Day20--优化算法的思路

确定执行的优先级(Prioritizing what to work on : Spam classification example)

在建立学习系统前,我们不仅要梳理框架,更重要的是我们要弄清楚有哪些事情是要优先做的,这可以帮我们节约大量的时间。

以垃圾邮件为例,按照之前解决分类问题的思路,我们可能会想到设置特征向量为x,在训练集中假设垃圾邮件的标签为1,否则则为0,但是怎么设置特征向量是一个关键的问题。假设我们有一个100个单词纵向排列的单词表,我们把邮件里的单词与表做对比,如果出现了表里的单词记为1,否则记为0,从而设置出一个由0和1构成的列向量,而这就是一个100维的特征向量了。当然,在实际操作中,我们是把训练集中出现的较多的单词放进表里,而不是随机写一个表,衡量较多次数的标准是出现次数在[10000,50000]。

像上述所说的方法,其实就是在试图让我们的算法如何在有限的时间内具有高精确度和低错误率,当然我们还可以添加其他特征,像通过标题的信息辅助判断,邮件内容中授信人信息的占比以及故意拼写错误的单词,都能帮助我们更好地优化算法,这些方法之间没有优劣之分,一般我们会随机采取其中一种或几种方法,只要不去盲目地收集数据扩大训练集。

误差分析(Error analysis)

在解决学习问题时,和想象中思考如何将尽可能考虑全面,如何做出一个复杂的系统不同,我们一般会先在较短的时间内粗略地做一个简单算法出来,并画出对应的学习曲线和计算出误差。在上一章我们了解到,这可以帮助我们知道我们应该往哪个方向优化算法,是应该扩充数据集,还是增加更多特征,亦或是更改正则化参数。

但在这里想说的一个同样很重要的方法:误差分析,我们可以在观察每次算法在验证集计算误差后,呈现出的错误预测的结果,多看看这些结果有利于我们思考怎样去设计新特征以及当下算法的优缺点。

对于垃圾邮件分类算法作误差分析

可以看到,假如我们有500个验证集,其中有100个被是错误分类的,通过手动分析我们发现其中的邮件以盗取密码为目的的钓鱼邮件居多,那么我们就可以在特征筛选时加强带有密码信息字眼的权重;假如我们分析这些错误分类的邮件中拼写错误的很少,来源奇怪和带有奇怪标点的邮件很多,这说明我们需要把更多的时间放在思考如何筛选后者。

另一个改进算法的技巧是在算法中加入数值估计,意思是在对算法做出改进后,优化后的算法可以返回一个数值评价标准来估计算法执行的结果,这有助于我们判断是否改进的方向是准确的,毕竟进步0.05和进步5是截然不同的两个效果。

假设我们思考根据词干将一些单词归为同一类以方便算法做出更好的判断,但有的只是因为单词的时态发生改变(discount,discounted,discounting),有的根本就是两个单词(universe,university),在这种情况下,最好的判断方法就是我们实施词干提取的方法然后观察效果是否显著,而在这种背景下,返回一个数值评价就能帮我们直观地感受一个方法的好坏,简单的做法就是用分类错误率作为数值评价,假如用了词干提取后错误率下降了,这就说明这是一个好的改进思路。所以我们一般都会在验证集执行这一步,毕竟这就有一个现成的、可以不需要加工的数据供我们参考,而不是在测试集再去做分析。

视频参考链接:https://www.bilibili.com/video/BV1By4y1J7A5?spm_id_from=333.788.player.switch&vd_source=867b8ecbd62561f6cb9b4a83a368f691&p=66

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/912401.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

H5播放器EasyPlayer.js 流媒体播放器是否支持npm(yarn) install 安装?

EasyPlayer.js H5播放器是一款功能强大的H5视频播放器,它支持多种流媒体协议播放,包括WebSocket-FLV、HTTP-FLV、HLS(m3u8)、WebRTC等格式的视频流。它不仅支持H.264和H.265编码格式,还具备实时录像、低延时直播等功能…

SpringCloud篇(微服务)

目录 一、认识微服务 1. 单体架构 2. 分布式架构 3. 微服务 3.1. 特点 3.2. 优点 3.3 缺点 二、微服务设计、拆分原则 1. AKF 拆分原则 2. Y轴(功能)关注应用中功能划分,基于不同的业务拆分 3. X轴(水平扩展&#xff09…

【鸿蒙】HarmonyOS NEXT应用开发快速入门教程之布局篇(下)

系列文章目录 【鸿蒙】HarmonyOS NEXT开发快速入门教程之ArkTS语法装饰器(上) 【鸿蒙】HarmonyOS NEXT开发快速入门教程之ArkTS语法装饰器(下) 【鸿蒙】HarmonyOS NEXT应用开发快速入门教程之布局篇(上) 【…

ts 如何配置引入 json 文件

ts 如何配置引入 json 文件 参考文档: https://maxgadget.dev/article/how-to-import-a-json-file-in-typescript-a-comprehensive-guide 项目中有一个 .json 的文件是配置文件,如何引入到 ts 项目中 配置 tsconfig.json 文件,添加这两个 {…

Jenkins找不到maven构建项目

有的可能没有出现maven这个选项 解决办法:需要安装Maven项目插件 输入​Maven Integration plugin​

解决 “Error: listen EACCES: permission denied 0.0.0.0:80“ 错误

前言 在开发过程中,我们经常会遇到各种各样的错误。其中一个常见的错误是 Error: listen EACCES: permission denied 0.0.0.0:80。这个错误通常发生在尝试启动一个开发服务器时,服务器试图绑定到80端口,但由于权限不足而失败。本文将详细介绍…

华为2288HV2服务器安装BCLinux8U6无法显示完整安装界面的问题处理

本文记录了华为2288HV2服务器安装BCLinux8U6无法显示完整安装界面,在安装过程中配置选择时,右侧安装按钮不可见,导致安装无法继续的问题处理过程。 一、问题现象 华为2288HV2服务器安装BCLinux8U6时无法显示完整的安装界面,问题…

使用docker形式部署jumpserver

文章目录 前言一、背景二、使用步骤1.基础环境准备2.拉取镜像3.进行部署4.备份记录启动命令 前言 记录一下使用docker形式部署jumpserver服务的 一、背景 搭建一个jumpserver的堡垒机,但是发现之前是二进制文件部署的,会在物理机上部署污染环境&#x…

【SQL50】day 1

目录 1.可回收且低脂的产品 2.寻找用户推荐人 3.使用唯一标识码替换员工ID 4.产品销售分析 I 5.有趣的电影 6.平均售价 7.每位教师所教授的科目种类的数量 8.平均售价 1.可回收且低脂的产品 # Write your MySQL query statement below select product_id from Products w…

Mac如何将多个pdf文件归并到一个

电脑:MacBook Pro M1 操作方式: very easy 选中想要归并的所有pdf文件,然后 右键 -> quick actions -> Create PDF 然后就可以看到将所选pdf文件归并为一个pdf的文件了

elementUI 点击弹出时间 date-picker

elementUI的日期组件,有完整的UI样式及弹窗,但是我的页面不要它的UI样式,点击的时候却要弹出类似的日期选择器,那怎么办呢? 以下是elementUI自带的UI风格,一定要一个输入框来触发。 这是我的项目中要用到的…

PCA(主成分分析)算法的应用场景

PCA(主成分分析)算法的应用场景非常广泛,以下是一些主要的应用领域: 数据压缩: PCA可以将高维数据映射到低维空间,从而实现数据的压缩,减少存储空间和计算复杂度。这对于存储和传输大量数据的情…

优选算法第五讲:位运算模块

优选算法第五讲:位运算模块 1.常见的位运算总结2.判断字符是否唯一3.丢失的数字4.两整数之和5.只出现一次的数字II6.消失的两个数字 1.常见的位运算总结 2.判断字符是否唯一 链接: link class Solution { public:bool isUnique(string astr) {if(astr.size() >…

求平面连接线段组成的所有最小闭合区间

这个功能确实非常实用,我在过去开发地面分区编辑器时就曾应用过这一算法。最近,在新产品的开发中再次遇到了类似的需求。尽管之前已经实现过,但由于长时间未接触,对算法的具体细节有所遗忘,导致重新编写时耗费了不少时…

Spring Boot开发入门教程

简介 Spring Boot是一个开源的Java基础框架,用于创建独立、生产级的基于Spring框架的应用程序。通过Spring Boot,你可以轻松地创建独立的、生产级的Spring应用程序。 环境准备 Java开发环境:确保你的机器上安装了Java 8或更高版本。Maven…

虚拟化数据恢复—XenServer虚拟机中SQL Server数据库数据恢复案例

服务器虚拟化数据恢复环境: 某品牌720服务器中有一组通过同品牌、型号为H710P的RAID卡4块STAT硬盘组建的RAID10磁盘阵列。上层部署XenServer虚拟化平台。1台Windows Server操作系统虚拟机,该虚拟机有2块虚拟磁盘(系统盘数据盘)&am…

2024年【流动式起重机司机】模拟考试及流动式起重机司机证考试

题库来源:安全生产模拟考试一点通公众号小程序 流动式起重机司机模拟考试考前必练!安全生产模拟考试一点通每个月更新流动式起重机司机证考试题目及答案!多做几遍,其实通过流动式起重机司机模拟考试题很简单。 1、【多选题】( )和…

移动应用开发:实现简易调查问卷

文章目录 前言一,创建SurveyActivity活动二,设计UI三,创建字符串资源文件四,编写活动代码五,更新 AndroidManifest.xml六,运行测试 前言 在Android Studio中开发一个调查问卷界面思路解析: 创建…

深度学习-图像评分实验(TensorFlow框架运用、读取处理图片、模型建构)

目录 0、实验准备 ①实验环境 ②需要下载的安装包 ③注意事项(很关键,否则后面内容看不懂) ④容易出现的问题 1、查看数据并读取数据。 2、PIL库里的Image包进行读取(.resize更改图片尺寸,并将原始数据归一化处…

Intern大模型训练营(五):书生大模型全链路开源体系笔记

观看视频,可以比较详细地了解到书生大模型全链路开源体系。 其中有几个印象比较深的点: 这张图讲述了书生浦语大模型开源的发展史,同时与主流的llama和Chatgpt模型进行比较,可以看出在参数上,InterLM在努力追赶甚至超…