统计学习方法概述

在这里插入图片描述

一、引言

随着AI的曙光逐渐普照IT界,众多曾经高深莫测的人工智能术语与理念,如监督学习、算法模型、回归分析等,已悄然融入广大信息技术人员的知识体系之中。老猿是个很传统的IT人,虽未深究这些新兴知识的精髓,却也在时代的洪流中逐渐了解一些知识表层的含义。

知识的海洋浩瀚无垠,系统的学习更有助于知识的深入理解。这2天老猿突然回想起2021年AI大佬 herosunly所推荐的《统计学习方法》(李航 著)这部著作,于是从尘封的书架上取下这本书,轻轻拂去封面上的尘埃,正是老猿渴望深入学习的内容。遗憾的是,由于诸多繁杂之事纷扰,书已在书架上静蒙尘两年有余。接下来的这段时间,老猿决心利用自己闲暇的时光去细细品味书的内容,让智慧的光辉照亮自己的求知之路,同时老猿将尽可能的在学习理解的同时,将学习的总结和感悟在CSDN的博客中分享。

二、统计学习相关概念

统计学习(statistical learning)也称为统计机器学习(statistical machine learning),是机器学习领域的一个重要分支,是关于计算机基于数据构建概率统计模型,并运用模型对数据进行预测与分析的一门学科。它侧重于通过统计方法从数据中学习模式和规律,其核心在于构建数学模型,并通过这些模型对数据进行解释、预测和决策。它结合了统计学的理论基础和计算技术,旨在从有限的观测数据中提取信息,并对未知数据做出推断。

统计学习的主要特点如下:

  1. 统计学习以计算机及网络为平台,建立在计算机及网络之上;
  2. 统计学习以数据为研究对象,是数据驱动(Data-Driven)的学科;
  3. 统计学习目的是为了对数据进行预测和分析;
  4. 统计学习以方法为中心,统计学习方法构建模型并应用模型进行预测与分析;
  5. 统计学习是以概率论、统计学、信息论、计算理论、最优化理论及计算机科学等多个领域交叉的学科,并逐步形成独自的理论体系与方法论。

在这里插入图片描述

三、统计学习的对象和目的

统计学习研究的对象是数据,它从数据出发,提取数据的特征、抽象出数据的模型、发现数据中的知识,并又回到对数据的分析与预测中去。

统计学习关于数据的基本假设是具有某种共同性质的同类数据具有一定的统计规律性,适合用概率统计方法处理,比如用随机变量描述数据特征,用概率分布描述数据的统计规律。

在统计学习中,以变量或变量组表示数据,数据分为离散变量和连续变量表示的类型。

统计学习的总目标就是考虑学习什么样的模型和如何学习模型,以使模型能对数据进行准确的预测与分析,同时要考虑尽可能提高学习效率。

四、统计学习的方法

统计学习是基于数据构建概率统计模型从而对数据进行分析和预测,统计学习由监督学习(Supervised Learning)、无监督学习(Unsupervised Learning)和强化学习(Reinforcement Learning)等组成。

统计学习的方法可以概括如下:

  • 从给定的、有限的、用于学习的训练数据(training data)集合出发,且假设数据是独立同分布产生的;
  • 假设学习的模型属于某个函数的集合,称为假设空间(Hypothesis Space)
  • 应用某个评价准则(Evaluation Criteria)从假设空间中选取一个最优模型,使其对已知的训练数据和未知的测试数据在给定的评价准则下有最优的预测
  • 最优模型的选取由算法实现。

综上所述,统计学习的方法可以概括为模型的假设空间、模型选择的准则以及模型学习的算法,这就是统计学习的三要素,简称为模型(model)、策略(strategy)和算法(algorithm)

❀❀❀❀❀❀老猿注1

本部分内容中,“假设学习的模型属于某个函数的集合,称为假设空间”这句话是容易让人产生歧义的,在这里老猿根据自己的理解展开说明一下:
1. “某个函数的集合”实际上是指一系列不同的函数,每个函数都对应于一个可能的模型或假设。这些函数共享某些共同的特性或结构,但具体的参数或形式可能不同。例如,在线性回归的假设空间中,所有函数都是线性的,函数都可以表示为y=wx+b,但具体的权重 w 和偏移b 可以取不同的值,这样在线性模型中,这个函数是指y=wx+b,但由于w和b取值不同,因此又是一个函数集。因此,当说假设空间是一个函数的集合时,是指这个集合包含了所有可能的函数,每个函数都是对数据的一种可能的解释或预测模型;
2. 不同的假设空间包含的函数形式很可能是不一样的,例如线性空间不可能出现y=ax²+bx+c(a!=0)这样的函数,但如果说假设空间是多项式函数对应的假设空间,则y=ax²+bx+c和y=wx+b可以属于一个假设空间。

❀❀❀❀❀❀老猿注2:
上述内容可以换成另外一种角度来描述:统计学习的核心是建立一个从数据中学习并进行预测的模型。这个过程通常涉及三个基本要素:模型(Model)、策略(Strategy)和算法(Algorithm)。这三个要素共同决定了统计学习的过程和结果。

  • 模型(Model)模型是学习过程中的基础,它定义了假设空间,即所有可能的函数或预测规则的集合。在统计学习中,通常选择一个模型族(比如线性模型、决策树、神经网络等),这个模型族中的每一个成员都是一个潜在的假设,它们共同构成了假设空间。模型的选择对学习过程和最终的预测性能有着直接的影响
  • 策略(Strategy)策略是指用来从假设空间中选择最优模型的准则。它通常是一个评价准则,用来衡量模型对数据的拟合程度。常见的策略包括经验风险最小化(如最小化均方误差)、结构风险最小化(如正则化方法)等。策略的选择决定了我们如何从众多可能的模型中选择一个最优的模型来进行预测
  • 算法(Algorithm)算法是用来实现策略的具体计算过程。它是一种数学上的优化方法,用于在给定的策略下找到最优的模型参数。例如,梯度下降、牛顿法、支持向量机的拉格朗日乘数法等。算法的效率和准确性对于模型的学习速度和最终性能都至关重要。

实现统计学习方法的步骤如下

  1. 得到一个有限的训练数据集合;
  2. 确定包含所有可能模型的假设空间,即学习模型的集合;
  3. 确定模型选择的准则,即学习的策略;
  4. 实现求解最优模型的算法,即学习的算法;
  5. 通过学习方法选择最优模型;
  6. 利用学习的最优模型对数据进行预测或分析。

五、统计学习的研究

统计学习研究一般包括统计学习方法、统计学习理论及统计学习应用三个方面:

  • 统计学习方法
    统计学习方法的研究旨在开发新的学习方法,关注于开发和研究用于数据分析和模式识别的算法和技术。它包括各种机器学习算法,如监督学习(分类、回归)、无监督学习(聚类、降维)、强化学习等。统计学习方法的目标是找到从数据中学习并做出准确预测或决策的最有效的方式。这涉及到特征工程、模型选择、模型评估、优化算法等多个方面。此外,还包括对不同学习算法的比较和组合,以及如何调整和优化这些算法以适应特定的数据集和问题。

  • 统计学习理论
    统计学习理论研究在于探求统计学习方法的有效性、效率以及统计学习的基本理论问题,提供了对学习方法背后数学原理的深入理解。它包括泛化理论、偏差-方差权衡、模型选择理论、复杂性理论等。统计学习理论旨在解释和预测算法的行为,包括它们在有限样本情况下的表现,以及如何通过理论指导来选择最佳的学习策略。这部分研究帮助我们理解为什么某些方法在实践中有效,以及它们的局限性和潜在的风险。

  • 统计学习应用:
    统计学习应用是指将统计学习方法和理论应用到实际问题中去。这包括各种领域,如金融风险评估、医疗诊断、自然语言处理、图像识别、推荐系统等。在这些应用中,统计学习方法被用来解决实际问题,提高决策质量,优化流程,甚至推动科技创新。统计学习应用不仅展示了统计学习的强大能力,也不断推动着新方法和技术的发展,以适应不断变化的现实需求。

六、小结

本文是老猿学习《统计学习方法》(李航 著)一书的感悟和总结,大部分内容来源与书本,之所以将原文的大部分内容在博客中呈现,是因为老猿觉得这些内容对新人学习非常重要,会起到提纲挈领的作用。

统计学习是处理海量数据的有效方法,是计算机智能化的有效手段,更是计算机科学发展的一个重要组成部分,对应计算机科学系统、计算、信息三个组成部分的信息这个部分。统计学习是基于数据构建概率统计模型从而对数据进行分析和预测,统计学习的三要素为模型(model)、策略(strategy)和算法(algorithm),模型是基础,定义了所有可能的函数或预测规则的集合的假设空间,策略是用来从假设空间中选择最优模型的准则,算法是用来实现策略的具体计算过程。

更多统计学习基础知识请参考专栏《统计学习基础知识》。

更多人工智能基础知识请参考专栏《人工智能基础知识》。

写博不易,敬请支持:

如果阅读本文于您有所获,敬请点赞、评论、收藏,谢谢大家的支持!

关于老猿的付费专栏

  1. 付费专栏《https://blog.csdn.net/laoyuanpython/category_9607725.html 使用PyQt开发图形界面Python应用》专门介绍基于Python的PyQt图形界面开发基础教程,对应文章目录为《 https://blog.csdn.net/LaoYuanPython/article/details/107580932 使用PyQt开发图形界面Python应用专栏目录》;
  2. 付费专栏《https://blog.csdn.net/laoyuanpython/category_10232926.html moviepy音视频开发专栏 )详细介绍moviepy音视频剪辑合成处理的类相关方法及使用相关方法进行相关剪辑合成场景的处理,对应文章目录为《https://blog.csdn.net/LaoYuanPython/article/details/107574583 moviepy音视频开发专栏文章目录》;
  3. 付费专栏《https://blog.csdn.net/laoyuanpython/category_10581071.html OpenCV-Python初学者疑难问题集》为《https://blog.csdn.net/laoyuanpython/category_9979286.html OpenCV-Python图形图像处理 》的伴生专栏,是笔者对OpenCV-Python图形图像处理学习中遇到的一些问题个人感悟的整合,相关资料基本上都是老猿反复研究的成果,有助于OpenCV-Python初学者比较深入地理解OpenCV,对应文章目录为《https://blog.csdn.net/LaoYuanPython/article/details/109713407 OpenCV-Python初学者疑难问题集专栏目录 》
  4. 付费专栏《https://blog.csdn.net/laoyuanpython/category_10762553.html Python爬虫入门 》站在一个互联网前端开发小白的角度介绍爬虫开发应知应会内容,包括爬虫入门的基础知识,以及爬取CSDN文章信息、博主信息、给文章点赞、评论等实战内容。

前两个专栏都适合有一定Python基础但无相关知识的小白读者学习,第三个专栏请大家结合《https://blog.csdn.net/laoyuanpython/category_9979286.html OpenCV-Python图形图像处理 》的学习使用。

对于缺乏Python基础的同仁,可以通过老猿的免费专栏《https://blog.csdn.net/laoyuanpython/category_9831699.html 专栏:Python基础教程目录)从零开始学习Python。

如果有兴趣也愿意支持老猿的读者,欢迎购买付费专栏。

老猿Python,跟老猿学Python!

☞ ░ 前往老猿Python博文目录 https://blog.csdn.net/LaoYuanPython ░

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/541040.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

从零开始编写一个cmake构建脚本

简介 本文档介绍cmake构建脚本编写,包含的一些主要元素和命名规范。 cmake构建脚本编写步骤 cmake构建工具版本要明确 # 命令名字要小写,这条语句要求构建工具至少需要版本为3.12或以上 cmake_minimum_required (VERSION 3.12)工程名及库的版本号明确…

阿里面试总结 一

写了这些还是不够完整,阿里 字节 卷进去加班!奥利给 ThreadLocal 线程变量存放在当前线程变量中,线程上下文中,set将变量添加到threadLocals变量中 Thread类中定义了两个ThreadLocalMap类型变量threadLocals、inheritableThrea…

深度学习的模型有几类,能干嘛用?

1、基础模型 (1)卷积神经网络 **卷积:**卷积的本质是通过矩阵运算9的方式将输入数据进行空间上的滤波,有效地提取数据中的局 部特征,从而实现特征数据更高程度的抽象表示。 **池化:**可以理解成“压缩”…

火绒安全软件:程序员的网络守护天使

目录 前言 系统防护 网络防护 隐私保护 高级设置 软件安全 响应速度 持续更新 总结 前言 在这个充满机遇与挑战的数字时代,程序员们如同探险家,不断探索着代码的新大陆。然而,网络世界也充斥着各种未知的风险和威胁。火绒安全软件&a…

浏览器工作原理与实践--渲染流水线:CSS如何影响首次加载时的白屏时间

在上一篇文章中我们详细介绍了DOM的生成过程,并结合具体例子分析了JavaScript是如何阻塞DOM生成的。那本文我们就继续深入聊聊渲染流水线中的CSS。因为CSS是页面中非常重要的资源,它决定了页面最终显示出来的效果,并影响着用户对整个网站的第…

初识 QT

初始QT 什么是QTQT发展史QT支持的平台QT的优点QT的应用场景搭建QT开发环境QT的开发工具概述QT下载安装 使用QT创建项目QT 实现Hello World程序使用按钮控件来实现使用标签控件来实现 项目文件解析widget.hmain.cppwidget.cppwidget.ui.pro文件 对象树QT 窗口坐标体系 什么是QT …

STM32H7的MPU学习和应用示例

STM32H7的MPU学习记录 什么是MPU?MPU的三种内存类型内存映射MPU保护区域以及优先级 MPU的寄存器XN位AP位TEX、C、B、S位SRD 位SIZE 位CTRL 寄存器的各个位 示例总结 什么是MPU? MPU(Memory Protection Unit,内存保护单元&#xf…

LeetCode最长有效括号问题解

给定一个仅包含字符的字符串(’ 和 ‘)’,返回最长有效的长度(出色地-形成) 括号子弦。 示例1: 输入:s “(()” 输出:2 说明:最长的有效括号子字符串是 “()” 。 示例2: 输入:s “)()())…

5分钟手把手教你 Guitar Pro v8.1.1 Build 17 中文完整激活版(附教程) 64位

吉他爱好者必备神器:Guitar Pro v8.1.1 Build 17深度解析 随着数字音乐制作和学习的日益普及,越来越多的吉他爱好者开始寻找能够帮助他们提升技能、创作音乐的专业工具。在众多吉他制作软件中,Guitar Pro因其强大的功能和易用的界面备受推崇…

Linux内核中KASLR功能是什么?有什么作用?怎么破除?以及如何实操?(地址空间、layout random、kallsyms)

1. 背景 KASLR是一个什么技术点其实不重要,但重要的是有了KASLR这个功能后,造成内核中某个符号(函数 or 变量)在System.map中的地址和实际不一样了(实际: cat /proc/kallsyms),进一…

JVM性能调优——GC日志分析

文章目录 1、概述2、生成GC日志3、Parallel垃圾收集器日志解析3.1、Minor GC3.2、FULL GC 4、G1垃圾收集器日志解析4.1、Minor GC4.2、并发收集4.3、混合收集4.4、Full GC 5、CMS垃圾收集器日志解析5.1、Minor GC5.2、Major GC5.3、浮动垃圾 6、日志解析工具6.1、GCeasy6.2、GC…

Java代码基础算法练习-自定义函数之求字符串长度-2024.04.13

任务描述: 写一函数,求一个字符串的长度(字符串长度不超过255),然后在主函数中调用该函数 实现求长度操作。 任务要求: 代码示例: package April_2024;import java.util.Scanner;public class …

Spark AQE(Adaptive Query Execution)机制

💐💐扫码关注公众号,回复 spark 关键字下载geekbang 原价 90 元 零基础入门 Spark 学习资料💐💐 AQE 的全称是 Adaptive Query Execution,翻译过来是“自适应查询执行”。它包含了 3 个动态优化特性&#…

Android适配平板屏幕尺寸

一、划分手机和平板 人为判断方法: 大于6英寸的就是平板。小于6英寸的都是手机 平板尺寸: 6英寸、7英寸、10英寸、14英寸… Android系统支持多配置资源文件,我们可以追加新的资源目录到你的Android项目中。命名规范: 资源名字-限制符 l…

Python代码识别minist手写数字【附pdf】

一、概述 对于人类而言,要识别图片中的数字是一件很容易的事情,但是,如何让机器学会理解图片上的数字,这似乎并不容易。那么,能否找出一个函数(模型),通过输入相关的信息&#xff0…

FourCastNet 论文解析

气象基础模型/气象大模型论文速递 论文链接基于arXiv Feb. 22, 2022版本阅读 几乎是第一篇气象大模型的工作,同时也是为数不多的对precipitation进行预测的模型。 文章目录 PerformanceStructureFourier transformToken mixing TrainingPrecipitation Model Ensembl…

科研学习|可视化——Origin绘制相关性系数矩阵

一、Origin软件版本 Origin2021版本 二、插件下载地址 CorrelationPlot.opx资源-CSDN文库 三、插件安装步骤 从上述链接下载插件将插件解压缩(最好是解压缩到orgin的安装目录)用origin打开插件(或者打开origin,将插件拖拽到origin…

Mysql主从复制安装配置

mysql主从复制安装配置 1、基础设置准备 #操作系统: centos6.5 #mysql版本: 5.7 #两台虚拟机: node1:192.168.85.111(主) node2:192.168.85.112(从)2、安装mysql数据库 #详细安装和卸载的步骤…

开源项目one-api的k8s容器化部署(上)-- 制作镜像及部署准备

一、背景 最近需要对开源项目one-api进行k8s容器化部署,主要分以下几个步骤: 制作docker镜像申请mysql和redis数据库docker-compose部署方式k8s部署方式 整个的篇幅比较长,将会分成上下两篇来阐述。 二、制作docker镜像 开源项目one-api…

Vue2 —— 学习(六)

一、Vue 脚手架 (一)介绍 Vue 脚手架是 Vue 官方提供的标准化开发工具 (开发平台) 脚手架版本最新版本 是 4.x 文档可以查看 http://cli.vuejs.org/zh/ 就是vue 官网文档中 的 vue.cli command line interface (…