4 机器学习之归纳偏好

通过学习得到的模型对应了假设空间中的一个假设。于是,图1.2的西瓜版本空间给我们带来一个麻烦:现在有三个与训练集一致的假设,但与它们对应的模型在面临新样本的时候,却会产生不同的输出。例如,对(色泽=青绿;根蒂=蜷缩;敲声=沉闷)这个新收来的瓜,如果我们采用的是“好瓜。​(色泽=)∧(根蒂=蜷缩)∧(敲声=)​”​,那么将会把新瓜判断为好瓜,而如果采用了另外两个假设,则判断的结果将不是好瓜。那么,应该采用哪一个模型(或假设)呢?

尽可能特殊即“适用情形尽可能少”​;尽可能一般即“适用情形尽可能多”​。

对“根蒂”还是对“敲声”更重视,看起来和属性选择,亦称“特征选择”(featureselection)有关,但需注意的是,机器学习中的特征选择仍是基于对训练样本的分析进行的,而在此处我们并非基于特征选择做出对“根蒂”的重视;这里对“根蒂”的信赖可视为基于某种领域知识而产生的归纳偏好。关于特征选择方面的内容参见(第11章 特征选择与稀疏学习)​。

若仅有表1.1中的训练样本,则无法断定上述三个假设中哪一个“更好”​。然而,对于一个具体的学习算法而言,它必须要产生一个模型。这时,学习算法本身的“偏好”就会起到关键的作用。例如,若我们的算法喜欢“尽可能特殊”的模型,则它会 选择“好瓜。​(色泽=)∧(根蒂=蜷缩)∧(敲声=浊响)​”​;但若我们的算法喜欢“尽可能一般”的模型,并且由于某种原因它更“相信”根蒂,则它会选择“好瓜。​(色泽=)∧(根蒂=蜷缩)∧(敲声=*)​”​。机器学习算法在学习过程中对某种类型假设的偏好,称为“归纳偏好”(inductivebias),或简称为“偏好”​。

任何一个有效的机器学习算法必有其归纳偏好,否则它将被假设空间中看似在训练集上“等效”的假设所迷惑,而无法产生确定的学习结果。可以想象,如果没有偏好,我们的西瓜学习算法产生的模型每次在进行预测时随机抽选训练集上的等效假设,那么对这个新瓜“​(色泽=青绿;根蒂=蜷缩;敲声=沉闷)​”​,学得模型时而告诉我们它是好的、时而告诉我们它是不好的,这样的学习结果显然没有意义。

归纳偏好的作用在图1.3这个回归学习图示中可能更直观。这里的每个训练样本是图中的一个点(x,y),要学得一个与训练集一致的模型,相当于找到一条穿过所有训练样本点的曲线。显然,对有限个样本点组成的训练集,存在着很多条曲线与其一致。我们的学习算法必须有某种偏好,才能产出它认为“正确”的模型。例如,若认为相似的样本应有相似的输出(例如,在各种属性上都很相像的西瓜,成熟程度应该比较接近)​,则对应的学习算法可能偏好图1.3中比较“平滑”的曲线A而不是比较“崎岖”的曲线B。

图1.3 存在多条曲线与有限样本训练集一致
在这里插入图片描述

归纳偏好可看作学习算法自身在一个可能很庞大的假设空间中对假设进行选择的启发式或“价值观”​。那么,有没有一般性的原则来引导算法确立“正确的”偏好呢?​“奥卡姆剃刀”(Occam’s razor)是一种常用的、自然科学研究中最基本的原则,即“若有多个假设与观察一致,则选最简单的那个”​。如果采用这个原则,并且假设我们认为“更平滑”意味着“更简单”​(例如曲线A更易于描述,其方程式是y=-x2+6x+1,而曲线B则要复杂得多)​,则在图1.3中我们会自然地偏好“平滑”的曲线A。

然而,奥卡姆剃刀并非唯一可行的原则。退一步说,即便假定我们是奥卡姆剃刀的铁杆拥趸,也需注意到,奥卡姆剃刀本身存在不同的诠释,使用奥卡姆剃刀原则并不平凡。例如对我们已经很熟悉的西瓜问题来说,​“假设1:好瓜。​(色泽=)∧(根蒂=蜷缩)∧(敲声=浊响)​”和假设2:​“好瓜。​(色泽=)∧(根蒂=蜷缩)∧(敲声=*)​”这两个假设,哪一个更“简单”呢?这个问题并不简单,需借助其他机制才能解决。

事实上,归纳偏好对应了学习算法本身所做出的关于“什么样的模型更好”的假设。在具体的现实问题中,这个假设是否成立,即算法的归纳偏好是否与问题本身匹配,大多数时候直接决定了算法能否取得好的性能。

让我们再回头看看图1.3.假设学习算法a基于某种归纳偏好产生了对应于曲线A的模型,学习算法b基于另一种归纳偏好产生了对应于曲线B的模型。基于前面讨论的平滑曲线的某种“描述简单性”​,我们满怀信心地期待算法a比b更好。确实,图1.4(a)显示出,与B相比,A与训练集外的样本更一致;换言之,A的泛化能力比B强。

但是,且慢!虽然我们希望并相信a比b更好,但会不会出现图1.4(b)的情况:与A相比,B与训练集外的样本更一致?
图1.4 没有免费的午餐(黑点:训练样本;白点:测试样本)
在这里插入图片描述
这里只用到一些非常基础的数学知识,只准备读第1章且有“数学恐惧”的读者可以跳过这个部分而不会影响理解,只需相信,上面这个看起来“匪夷所思”的结论确实是成立的。

很遗憾,这种情况完全可能出现。换言之,对于一个学习算法a,若它在某些问题上比学习算法b好,则必然存在另一些问题,在那里b比a好。有趣的是,这个结论对任何算法均成立,哪怕是把本书后面将要介绍的一些聪明算法作为a而将“随机胡猜”这样的笨拙算法作为b。惊讶吗?让我们看看下面这个简短的讨论:

为简单起见,假设样本空间和假设空间都是离散的。令P(h|X,a)代表算法a基于训练数据X产生假设h的概率,再令f代表我们希望学习的真实目标函数。a的“训练集外误差”​,即a在训练集之外的所有样本上的误差为
在这里插入图片描述

其中Ⅱ(·)是指示函数,若·为真则取值1,否则取值0。

若f均匀分布,则有一半的f对x的预测与h(x)不一致。

考虑二分类问题,且真实目标函数可以是任何函数↦{0,1},函数空间为{0,1}||。对所有可能的f按均匀分布对误差求和,有

在这里插入图片描述

在这里插入图片描述

式(1.2)显示出,总误差竟然与学习算法无关!对于任意两个学习算法a和b,
们都有
在这里插入图片描述

严格的NFL定理证明比这里的简化论述繁难得多

也就是说,无论学习算法a多聪明、学习算法b多笨拙,它们的期望性能竟然相同!这就是“没有免费的午餐”定理(No Free Lunch Theorem,简称NFL定理)​[Wolpert,1996;Wolpert and Macready,1995].

这下子,读者对机器学习的热情可能被一盆冷水浇透了:既然所有学习算法的期望性能都跟随机胡猜差不多,那还有什么好学的?

我们需注意到,NFL定理有一个重要前提:所有“问题”出现的机会相同、或所有问题同等重要。但实际情形并不是这样。很多时候,我们只关注自己正在试图解决的问题(例如某个具体应用任务)​,希望为它找到一个解决方案,至于这个解决方案在别的问题、甚至在相似的问题上是否为好方案,我们并不关心。例如,为了快速从A地到达B地,如果我们正在考虑的A地是南京鼓楼、B地是南京新街口,那么“骑自行车”是很好的解决方案;这个方案对A地是南京鼓楼、B地是北京新街口的情形显然很糟糕,但我们对此并不关心。

事实上,上面NFL定理的简短论述过程中假设了的均匀分布,而实际情形并非如此。例如,回到我们熟悉的西瓜问题,考虑{假设1:好瓜。​(色泽=)∧(根蒂=蜷缩)∧(敲声=浊响)}和{假设2:好瓜。​(色泽=)∧(根蒂=硬挺)∧(敲声=清脆)}。从NFL定理可知,这两个假设同样好。我们立即会想到符合条件的例子,对好瓜(色泽=青绿;根蒂=蜷缩;敲声=浊响)是假设1更好,而对好瓜(色泽=乌黑;根蒂=硬挺;敲声=清脆)则是假设2更好。看上去的确是这样。然而需注意到,​“​(根蒂=蜷缩;敲声=浊响)​”的好瓜很常见,而“​(根蒂=硬挺;敲声=清脆)​”的好瓜罕见,甚至不存在。

所以,NFL定理最重要的寓意,是让我们清楚地认识到,脱离具体问题,空泛地谈论“什么学习算法更好”毫无意义,因为若考虑所有潜在的问题,则所有学习算法都一样好。要谈论算法的相对优劣,必须要针对具体的学习问题;在某些问题上表现好的学习算法,在另一些问题上却可能不尽如人意,学习算法自身的归纳偏好与问题是否相配,往往会起到决定性的作用。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/891314.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Excel日期导入数据库变为数字怎么办

在Excel导入到数据库的过程中,经常会碰到Excel里面的日期数据,导进去过后变成了数字。 如下图: 使用navicate等数据库编辑器导入数据库后: 原因分析:这是因为日期和时间在excel中都是以数字形式存储的,这个…

PolarCTF靶场[web]file、ezphp WP

[WEB]file 知识点:文件上传漏洞 工具:Burp Suite、dirsearch 方法一: 根据页面提示,先用dirsearch工具扫一扫 访问/upload.php,发现一个上传区 在访问/uploaded/,再点击Parent Directory,发现链接到首页…

带隙基准Bandgap电路学习(三)

一、导入器件到版图中 从原理图中导入器件: Connectivity——>Generate——>All From Source I/O Pins暂不添加,后面自己画 PR(Primary Region)Boundary: 通常是用来定义芯片设计中某些关键区域的轮廓,比…

用Eclipse运行第一个Java程序

1.左键双击在桌面“软件 (文件夹)”,打开该文件夹 2.左键双击“eclipse (文件夹)”,打开该文件夹 3.左键双击“eclipse (文件夹)”,打开该文件夹 4.左键双击“eclipse.exe”,运行这个可执行程序 5.左键单击“Ok(按下按…

【软件部署安装】OpenOffice转换PDF字体乱码

现象与原因分析 执行fc-list查看系统字体 经分析发现,linux默认不带中文字体,因此打开我们本地的windows系统的TTF、TTC字体安装到centos机器上。 安装字体 将Windows的路径: C:\Windows\Fonts 的中文字体,如扩展名为 TTC 与TT…

电影《荒野机器人》观后感

上上周看了电影《荒野机器人》,电影整体是比较偏向温馨的,通过动物与机器人视角,展现人类为情感。 (1)承载-托举-学习-感情 在电影中,有个场景让自己感觉特别温馨,就是机器人为了让大雁宝宝学习…

Linux系统之dig命令的基本使用

Linux系统之dig命令的基本使用 一、dig命令介绍二、本次实践环境三、dig命令的使用帮助3.1 dig的语法解释3.2 dig的帮助信息 四、dig命令的基本使用4.1 查询对应域名的ip4.2 查询域名的MX记录4.3 查询域名的NS记录4.4 查询域名的A记录4.5 查询详细信息4.6 对目标ip进行反向解析…

让Kimi像人类思考的“Kimi探索版“已开启灰度内测!GPT-o1贡献者之一宣布离职|AI日报

文章推荐 “AI教父”辛顿与物理学家霍普菲尔德荣获诺贝尔物理学奖!“AI教母”李飞飞选择谷歌云作为主要计算提供商|AI日报 今日热点 o1推理模型贡献者Luke Metz官宣从OpenAI离职 就在昨日,o1推理模型贡献者之一Luke Metz发文称自己经过两…

Spring Boot实现License生成与校验详解

​ 博客主页: 南来_北往 系列专栏:Spring Boot实战 在软件开发领域,License(许可证)机制是保护软件版权、控制软件使用范围的重要手段。通过为软件生成唯一的License,开发者可以确保只有合法用户才能使用软件&…

【LeetCode】每日一题 2024_10_15 三角形的最大高度(枚举、模拟)

前言 每天和你一起刷 LeetCode 每日一题~ LeetCode 启动! 题目:三角形的最大高度 代码与解题思路 久违的简单题 这道题读完题目其实不难想到有两条路可以走: 1、题目很明显只有两种情况,枚举是第一个球是红球还是蓝球这两种情…

LIN诊断帧结构与仿真详解

在之前的文章中介绍了LIN主、从节点各自如何去做诊断测试,不太清楚的可以移步:LIN协议的诊断测试(附CAPL自动化代码) 文章目录 一、LIN诊断帧的帧结构二、诊断数据内容分析三、仿真测试实战 一、LIN诊断帧的帧结构 LIN诊断帧分为…

ClickHouse入库时间与实际相差8小时问题

原因一:服务端未修改默认时区 解决方案: 1、找 ClickHouse 配置文件 config.xml,通常位于 /etc/clickhouse-server/ 目录。 2、编辑 config.xml 文件,找到 标签。如果标签不存在,需要手动添加。 3、修改 标签的内容为 …

Prometheus + Grafana 监控 MySQL 数据库

文章目录 1、前置介绍2、搭建流程2.1、安装 Docker2.2、安装 MySQL2.3、安装 MySQL Exporter2.4、安装 Prometheus2.5、安装 Grafana 1、前置介绍 本次监控平台搭建,我使用2台阿里云服务器来完成本次的搭建部署操作,配置如下: 阿里云ECS1&am…

电脑无法无线投屏的解决办法

在前司的时候经常遇到电脑无法使用无线投屏器的情况,今天就来聊聊如何解决。 1.不会连接。这种情况,经常发生在WIN10升级WIN11之后,一般是两种办法,一种是同时按键盘上的WINDOWS和K键,右下角就会出来连接的图标&#…

Spring Boot课程答疑:技术难题一网打尽

4系统概要设计 4.1概述 本系统采用B/S结构(Browser/Server,浏览器/服务器结构)和基于Web服务两种模式,是一个适用于Internet环境下的模型结构。只要用户能连上Internet,便可以在任何时间、任何地点使用。系统工作原理图如图4-1所示: 图4-1系统工作原理…

Spring Integration + MQTT

1. 简介 Spring Integration: Spring Integration是一个开源的Java库,用于构建基于消息的应用程序。它提供了一套丰富的组件和工具,使得开发者可以轻松地开发出可靠、灵活和可扩展的集成解决方案。以下是Spring Integration的一些主要用途&…

Webpack 完整指南

​🌈个人主页:前端青山 🔥系列专栏:Webpack篇 🔖人终将被年少不可得之物困其一生 依旧青山,本期给大家带来webpack篇专栏内容:webpack介绍 目录 介绍 一、webpack 1.1、webpack是什么 1.2 webpack五个核心配置 1.…

浏览器服务端文件下载控制(安全阻止、文件浏览器打开还是下载行为控制)

文章目录 简介Chrome已阻止不安全内容下载PDF直接打开txt、xml、js文件被自动打开了而不是下载阿里OSS设置response header阿里OSS修改metadata 简介 随着浏览器的发展,有很多安全方面的限制,对我们的文件下载行为产生了很大的影响。 在JavaScript下载…

云手机:社交平台运营的热门工具

随着互联网的飞速发展,社交平台已经成为企业推广和营销的核心渠道。传统的运营方式已经无法满足高效运营的需求,而云手机作为新兴工具,逐渐成为社交平台运营的前沿趋势。本文将深入分析云手机如何优化社交平台的运营流程,助力企业…

手机中的ip地址是什么意思?可以改手机ip地址吗

‌IP地址,作为手机与网络通信的关键要素,不仅承担着网络通信的基础角色,还涉及网络安全、位置定位以及网络管理等多重功能。了解手机IP地址的含义及其修改方法,对于保护个人隐私、突破网络访问限制等方面具有重要意义。 一、手机I…