【机器学习之---数学】统计学基础概念

every blog every motto: You can do more than you think.
https://blog.csdn.net/weixin_39190382?type=blog

0. 前言

统计学基础

1. 频率派

频率学派(传统学派)认为样本信息来自总体,通过对样本信息的研究可以合理地推断和估计总体信息,并且随着样本的增加,推断结果会更加准确。代表性人物是费希尔(R. A. Fisher, 1890-1962)。

f11f3a292df5e0fed562e79f5b56dea45fdf72fc

频率学派的核心思想是基于大样本理论,将概率看作频率的极限,以样本观测值的频率为基础进行推断。频率学派注重数据的重复抽样和统计量的性质,比如点估计、置信区间和假设检验等。它强调的是通过样本信息来推断总体参数,并将此过程视为客观的、可重复的。

2. 贝叶斯学派

贝叶斯学派源于英国学者贝叶斯(T. Bayes, 1702-1761)在1763年发表的著名论文《论有关机遇问题的求解》。贝叶斯学派认为任何一个未知量都可以看作是随机的,应该用一个概率分布去描述未知参数,而不是频率派认为的固定值。

image-20240312102456751

贝叶斯学派的核心思想是先验信息与后验信息相结合,通过贝叶斯公式将先验信息与样本数据进行结合,得到后验分布,并以此作为对未知参数的推断。贝叶斯学派强调主观先验信息的引入,因此不同人可能会有不同的先验分布,从而导致不同的推断结果。贝叶斯学派注重个体的主观判断和背景信息,更加灵活和主观。

image-20240312101440834

先验分布: 贝叶斯学派使用先验分布来描述对未知参数的主观先验知识。先验分布可以是任意形式的分布函数,它反映了我们在进行观测之前对参数的先验认识。例如,在研究某产品的平均寿命时,我们可以使用指数分布作为平均寿命的先验分布。

img

后验分布: 贝叶斯学派使用后验分布来描述在观测数据之后对未知参数的更新认识。后验分布是通过将先验分布与观测数据相结合,应用贝叶斯公式计算得到的。例如,在进行文本分类时,我们可以使用贝叶斯定理计算每个类别的后验概率,从而将文本归入最可能的类别中。

img

3. 案例

3.1 频率派

比如我们想了解一个公交站在下一个单位时间内候车的人数情况。

常识告诉我们候车的人数分布应该是符合泊松分布的:

image-20240312105531055

也就是说单位时间内有k个人候车的概率,我们可以通过带入这个公式直接计算出来。

但是,我们面对的问题就是我们虽然知道这个分布公式,但其中有个未知参数λc。

所以,我们需要做的就是在已知分布的情况下如何去估计分布中未知的参数λc。

参数估计的经典方法认为未知参数λc是一个固定的常数,只不过是我们并没有确切的知道这个值。但是我们可以通过抽样得到的数据信息对这个值进行估计。

为此费希尔把高斯的极大似然估计方法做了重新论述,使之用来对参数进行估计。

简要说一下这个方法的大概思路。

我们从车站观察了5次,x1、x2、x3、x4、x5,我们认为在仅有的实验条件下出现的结果应该就是最大概率出现的结果。

所以我们写出似然函数:

image-20240312105625984

然后求使得这个式子达到最大值的λc的值。

由于对数的单调性,通常会取对数再求极值。

具体计算省略掉,得到的值为:

image-20240312105659884

这便是费希尔的经典方法

3.2 贝叶斯派

贝叶斯学派的最基本观点就是:任何一个未知量都可以看作是随机的,应该用一个概率分布去描述未知参数,而不是频率派认为的固定值。

在进行参数估计之前,通过先验信息,我们常常可以得到一个关于未知参数的概率分布,即先验分布,或主观分布。

这在频率派看来是根本不允许的,说好的未知参数是一个固定值,只能通过大量的重复的实验频率来确定,怎么到这里成了一个不确定的值了呢?

一句话而言,频率派认为未知参数是客观的,贝叶斯派认为未知参数可以先从主观角度来考虑。

贝叶斯认为,λc 不应该是一个固定值,而应该是一个随机变量。

我们平时根据经验,可以对做出一个分布的估计。

在这个例子中,我们根据平时候车的经验,感觉λc的值有75%的可能是10,有25%的可能是8,基本上没有其他的可能性了。

用贝叶斯方法的描述就是,关于λc的先验分布为:

image-20240312105939223

如果我们现在去公交车站,观察了一次,X=7,也就是说我们获得了最新的数据信息。

最新的数据信息有助于我们更新对λc的认识,即更新关于λc的先验分布。

应用贝叶斯定理,得到:

image-20240312110105947

image-20240312110124212

image-20240312110134717

同理得,

image-20240312110204470

所以,通过我们获得的信息,我们更新了我们对于先验分布的认识,从而得到了后验分布。

从认知的角度而言,贝叶斯方法是一个动态的过程。

随着我们经验的积累、获取数据的积累,对未知参数的估计不断进行着调整。

所以,贝叶斯方法很快在自然语言处理方面展现出了较好的特性。

4. 小结

频率学派和贝叶斯学派在理论和实践中各有侧重,互为补充。

频率学派的优点是注重大样本下的一致性和渐进性质,在样本足够大的情况下可以得到较为准确的推断结果。它的方法论在经典统计推断中应用广泛,特别适用于重复试验或大规模数据的分析。

贝叶斯学派的优点是能够充分利用先验信息,并将其与样本数据结合,从而得到更准确的推断结果。它的方法论适用于小样本或无法进行重复试验的情境,以及需要考虑个体差异和主观判断的问题。

img

参考

  1. https://mp.weixin.qq.com/s?__biz=MjM5MDE3OTk2Ng==&mid=2657441571&idx=1&sn=8448415b9c3fa355e76918f88dcb9f7b&chksm=bdd940328aaec9249e769779007899e55bd7d2fb7fa4cb2c785896cabb61fd9d36a93a93c6be&scene=27
  2. https://blog.csdn.net/fmqdzh/article/details/120003189
  3. https://blog.csdn.net/zy_zhengyang/article/details/115529564
  4. https://baijiahao.baidu.com/s?id=1779292867410400878&wfr=spider&for=pc

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/492575.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

为什么requests不是python标准库?

在知乎上看到有人问:为什么requests不是python标准库? 这确实是部分人困惑的问题,requests作为python最受欢迎的http请求库,已经成为爬虫必备利器,为什么不把requests直接装到python标准库里呢?可以省去第…

rostopic echo /tf 筛选特定数据

rostopic echo /tf 筛选特定数据 在使用rostopic echo命令时,您可以使用参数-n指定输出的消息数量,并且可以使用参数-p将输出以消息格式打印。然而,rostopic echo命令本身并不支持直接筛选指定的消息。 如果想要筛选特定的消息,…

【Java程序设计】【C00368】基于(JavaWeb)Springboot的箱包存储系统(有论文)

TOC 博主介绍:java高级开发,从事互联网行业六年,已经做了六年的毕业设计程序开发,开发过上千套毕业设计程序,博客中有上百套程序可供参考,欢迎共同交流学习。 项目简介 项目获取 🍅文末点击卡片…

Mybatis-核心配置文件 / Mybatis增删改查

1. 核心配置文件 1.1. 概述 核心配置文件是MyBatis框架中用于集中定义全局配置信息的XML文件,其内部包含了一系列预设标签,用于设置数据库连接、对象映射、类型处理等关键参数。这些标签遵循特定的排列顺序,尽管并非所有标签都是强制性的&a…

【LVGL-选项卡部件(lv_tabview_create)】

LVGL-选项卡部件(lv_tabview_create) ■ LVGL-选项卡部件(lv_tabview_create)■ 综合示例: ■ LVGL-选项卡部件(lv_tabview_create) ■ 综合示例: 装饰部分

06_Request

文章目录 前置知识点URL和URIHTTP请求报文和HTTP响应报文 Request请求行请求头请求体特殊信息获取客户机和服务器主机信息 请求参数直接封装引用类型 POST请求请求参数乱码文件上传案例(与前面的getServletContext结合) Request做请求的转发 前置知识点 …

pip安装pyqt5报错

已解决pip安装pyqt5报错 ERROR: Could not build wheels for PyQt5-sip, which is required to install pyproject.toml-based projects 安装C生成工具

查询 in条件下按顺序排序

查询语句 select * from user where id in (5,21,6);查询结果是不是按照参数顺序排列的,为了保证查询顺序可以使用 select * from sj_user where id in(5,21,6) order by FIELD(id,5,21,6); //或者 select * from sj_user where id in(5,21,6) order by FIND_IN_S…

MFC标签设计工具 图片控件上,移动鼠标显示图片控件内的鼠标xy的水平和垂直辅助线要在标签模板上加上文字、条型码、二维码 找准坐标和字体大小 源码

需求:要在标签模板上加上文字、条型码、二维码 找准坐标和字体大小 我生成标签时,需要对齐和 调文字字体大小。这工具微调 能快速知道位置 和字体大小。 标签设计(点击图片,上下左右箭头移动 或-调字体) 已经够用了,滚动条还没完…

使用docker-compose搭建wordpress博客

1、从远程仓库拉取worldpress镜像到本地 2、新建一个项目,然后在新建的项目目录里面新建一个docker-compose.yml模版文件。 3、编写docker-compose.yml文件 4、docker-compose up 运行项目。 5、在浏览器测试 使用docker-compose搭建wordpress博客实验成功。

过滤器 Filter

目录 1、Filter是什么 2、原理 3、怎样使用 步骤: Filter的执行流程: 拦截路径配置: 配置方式: 过滤器链: 1、Filter是什么 Filter是一个在计算机中用于筛选、过滤和修改数据的组件或模块。它在数据传输和处理…

python入门题:输入输出练习

以下是Python基础语法的练习,项目要求和代码如下: """ 例3:小精灵:你好,欢迎古灵阁,请问您需要帮助吗?需要or不需要? 你:需要 小精灵:请问你需…

python 中判断文件、目录是否存在的方法

判断目录是否存在并创建目录 一、实现上传文件功能二、判断目录是否存在的办法2.1、使用os模块2.1.1、判断目录是否存在2.1.2、os.makedirs():递归创建目录 2.2、使用pathlib模块2.2.1、path.exist()判断目录是否存在2.2.1、path.mkdir():创建目录 2.3、…

深入聊聊企业数字化转型这个事儿

01 什么是数字化? 聊数字化,就不得不聊聊信息化、智能化。佛性的说:信息化是数字化的前世,智能化是数字化的来生!我习惯用一个结构化的图形来表示事物之间的关系,信息化、数字化、智能化的关系如下&#…

后端基础篇- 社区 IDEA 手动 Maven 创建 SpringBoot 项目、Maven 安装与配置环境变量、IDEA 集成 Maven

🔥博客主页: 【小扳_-CSDN博客】 ❤感谢大家点赞👍收藏⭐评论✍ 文章目录 1.0 Maven 安装与配置环境变量 1.1 下载并解压安装包 1.2 配置本地仓库 1.3 配置阿里云私服 1.4 配置环境变量 2.0 IDEA 集成 Maven 2.1 首先创建一个新项目 2.2 开始…

Unity编辑器功能 将选中的文件夹复制一份到其他文件夹

[MenuItem("Ab包工具/将选中的文件移动到StreamingAssets文件夹下")] public static void MoveFireToStreamA() { //得到选中文件的数组 Object[] selectobj Selection.GetFiltered(typeof(Object), SelectionMode.DeepAssets); i…

【数据结构初阶】之堆(C语言实现)

数据结构初阶之堆(C语言实现) 🌏 堆的概念🌏 堆的模拟实现🐓 堆的结构和方法接口🐓 堆的方法的模拟实现🙊 堆的初始化🙊 堆的构建🙊 堆的插入🙊 向上调整&…

sentinel热点参数流控

1、概念 热点参数限流会统计传入参数中的热点参数,并根据配置的限流阈值与模式,对包含热点参数的资源调用进行限流。热点参数限流可以看做是一种特殊的流量控制,仅对包含热点参数的资源调用生效。 2、示例 2.1、目的 对于如下的/get接口的参…

【正点原子FreeRTOS学习笔记】————(13)队列集

这里写目录标题 一、队列集简介(了解)二、队列集相关API函数介绍(熟悉)三、队列集操作实验(掌握) 一、队列集简介(了解) 一个队列只允许任务间传递的消息为同一种数据类型&#xff…

鸿蒙开发之了解ArkTS

鸿蒙开发者官网 : https://developer.huawei.com/consumer/cn/ 开发鸿蒙要用的软件是 DevEco Studio ArkTS建立在JS和TS的基础之上,扩展了声明式UI开发范式和状态管理,提供更简洁和自然的开发方式。 ArkTS引入了渲染引擎的增强&#xff0c…