【机器学习8】采样

1 均匀分布随机数

均匀分布是指整个样本空间中的每一个样本点对应的概率(密度) 都是相等的。 根据样本空间是否连续, 又分为离散均匀分布和连续均匀分布。编程实现均匀分布随机数生成器一般可采用线性同余法(Linear Congruential Generator) 来生成离散均匀分布伪随机数:
在这里插入图片描述
得到的是区间[0,m−1]上的随机整数, 如果想要得到区间[0,1]上的连续均匀分布随机数, 用xt除以m即可.

2 采样

通用采样方法或采样策略的主要思想以及具体操作步骤:

方法主要思想具体步骤示意图
逆变换采样在函数变换法中, 如果变换关系φ(·)是x的累积分布函数的话, 则得到所谓的逆变换采样(Inverse Transform Sampling)(1)从均匀分布U(0,1)产生一个随机数ui;(2) 计算在这里插入图片描述 , 其中 在这里插入图片描述是累积分布函数的逆函数。上述采样过程得到的xi服从p(x)分布。在这里插入图片描述
拒绝采样对于目标分布p(x), 选取一个容易采样的参考分布q(x), 使得对于任意x都有在这里插入图片描述( 1) 从参考分布q(x)中随机抽取一个样本xi。( 2) 从均匀分布U(0,1)产生一个随机数ui,( 3) 如果在这里插入图片描述 , 则接受样本xi ; 否则拒绝, 重新进行步骤( 1) ~( 3) , 直到新产生的样本xi被接受。在这里插入图片描述
重要性采样用于计算函数f(x)在目标分布p(x)上的积分( 函数期望),在这里插入图片描述在这里插入图片描述

3 马尔可夫蒙特卡洛采样法(MCMC)

MCMC采样法基本思想是: 针对待采样的目标分布, 构造一个马尔可夫链, 使得该马尔可夫链的平稳分布就是目标分布; 然后,从任何一个初始状态出发, 沿着马尔可夫链进行状态转移, 最终得到的状态转移序列会收敛到目标分布, 由此可以得到目标分布的一系列样本。
几种常见的MCMC采样法:Metropolis-Hastings采样法和吉布斯采样法,实际应用中一般会对得到的样本序列进行“burn-in”处理,即截除掉序列中最开始的一部分样本, 只保留后面的样本。

3.1 Metropolis-Hastings采样法

在这里插入图片描述
其中红线表示被拒绝的移动(维持旧样本) , 绿线表示被接受的移动(采纳新样本)
对于目标分布p(x), 首先选择一个容易采样的参考条件分布q(x*|x),令:
在这里插入图片描述
然后根据如下过程进行采样:
(1) 随机选一个初始样本x(0)。
(2) For t = 1, 2, 3, … :

在这里插入图片描述

3.2 吉布斯采样法

每次只对样本的一个维度进行采样和更新。对于目标分布p(x), 其中x是多维向量, 按如下过程进行采样:
(1) 随机选择初始状态 。
(2) For t = 1, 2, 3, … :
在这里插入图片描述

如果确实需要产生独立同分布的样本, 可以同时运行多条马尔可夫链, 这样不同链上的样本是独立的; 或者在同一条马尔可夫链上每隔若干个样本才选取一个, 这样选取出来的样本也是近似独立的。

4 贝叶斯网络的采样

贝叶斯网络, 又称信念网络或有向无环图模型。 它是一种概率图模型, 利用有向无环图来刻画一组随机变量之间的条件概率分布关系。
在这里插入图片描述

对一个没有观测变量的贝叶斯网络进行采样, 最简单的方法是祖先采样(Ancestral Sampling) , 它的核心思想是根据有向图的顺序, 先对祖先节点进行采样, 只有当某个节点的所有父节点都已完成采样, 才对该节点进行采样。

考虑含有观测变量的贝叶斯网络的采样,
在这里插入图片描述

观测变量用斜线阴影表示,最直接的方法是逻辑采样, 还是利用祖先采样得到所有变量的取值。 如果这个样本在观测变量上的采样值与实际观测值相同, 则接受, 否则拒绝, 重新采样。逻辑采样法的采样效率急剧下降, 实际中基本不可用。在实际应用中, 可以参考重要性采样的思想, 不再对观测变量进行采样, 只对非观测变量采样,

5 不均衡样本集的采样

5.1 基于数据处理

方法主要思想优缺点
随机过采样主要思想从少数类样本集Smin中随机重复抽取样本(有放回) 以得到更多样本对少数类样本进行了多次复制, 扩大了数据规模, 增加了模型训练的复杂度, 同时也容易造成过拟合
SMOTE算法对少数类样本集Smin中每个样本x, 从它在Smin中的K近邻中随机选一个样本y, 然后在x,y连线上随机选取一点作为新合成的样本(根据需要的过采样倍率重复上述过程若干次)可以降低过拟合的风险,但会增大类间重叠度, 并且会生成一些不能提供有益信息的样本
Borderline-SMOTE只给那些处在分类边界上的少数类样本合成新样本
ADASYN给不同的少数类样本合成不同个数的新样本
随机欠采样从多数类样本集Smaj中随机选取较少的样本(有放回或无放回)会丢弃一些样本, 可能会损失部分有用信息, 造成模型只学到了整体模式的一部分。
Easy Ensemble每次从多数类Smaj中上随机抽取一个子集E(/E/≈/Smin/), 然后用E+Smin训练一个分类器; 重复上述过程若干次, 得到多个分类器,最终的分类结果是这多个分类器结果的融合。
Balance Cascade算法级联结构, 在每一级中从多数类Smaj中随机抽取子集E, 用E+Smin训练该级的分类器; 然后将Smaj中能够被当前分类器正确判别的样本剔除掉, 继续下一级的操作, 重复若干次得到级联结构; 最终的输出结果也是各级分类器结果的融合。
基于聚类的采样方法利用数据的类簇信息来指导过采样/欠采样操作
数据扩充方法对少数类样本进行一些噪声扰动或变换( 如图像数据集中对图片进行裁剪、 翻转、 旋转、 加光照等) 以构造出新的样本;
Hard Negative Mining把比较难的样本抽出来用于迭代分类器。

5.2 基于算法处理

可以通过改变模型训练时的目标函数( 如代价敏感学习中不同类别有不同的权重) 来矫正这种不平衡性; 当样本数目极其不均衡时, 也
可以将问题转化为单类学习( one-class learning) 、 异常检测( anomalydetection) 。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/151809.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

大数据-之LibrA数据库系统告警处理(ALM-12046 网络写包丢包率超过阈值)

告警解释 系统每30秒周期性检测网络写包丢包率,并把实际丢包率和阈值(系统默认阈值0.5%)进行比较,当检测到网络写包丢包率连续多次(默认值为5)超过阈值时产生该告警。 用户可通过“系统设置 > 阈值配置…

全功能知识付费变现小程序系统源码 自带流量主 轻松帮你赚钱 带完整搭建教程

大家好啊,今天罗峰要来给大家分享一款全功能知识付费变现小程序源码系统 。近年来互联网技术的快速发展,以及人们对知识付费的需求不断增长。全功能知识付费变现小程序系统源码的出现为大家提供一个全面、高效、安全的解决方案,帮助用户实现知…

阿里云的99元服务器和腾讯云的88元云服务器选择哪个?怎么选?

近日,阿里云宣布在2023年双十一优惠活动中推出了一系列降价措施,使得同配置的云服务器比腾讯云更具竞争力。这一消息不仅在云计算领域引起了轰动,更为广大互联网用户提供了更为实惠的选择。 阿里云推出99元一年的服务器,续费价格…

Linux学习教程(第三章 Linux文件和目录管理)1

第三章 Linux文件和目录管理(初识Linux命令) 对初学者来说,管理 Linux 系统中的文件和目录,是学习 Linux 至关重要的一步。 为了方便管理文件和目录,Linux 系统将它们组织成一个以根目录 / 开始的倒置的树状结构。Li…

VueEcharts的使用简解以及常用网站

目录 一:前言 二:实现 1、安装echarts依赖 2、创建图表 1)全局引入 2)按需引入 三:结尾 一:前言 VueEcharts 是项目开发中可视化的一个重要知识部分。其涵盖了柱状图,饼状图,…

机器学习深度学习服务器推荐

大学生、研究生未免找不到还有的GPU服务器,这边博主推荐 https://featurize.cn?s3d13789cb8184f16bb6133b20c353207 方便,便宜,不会自动删除上传项目文件,支持VScode、pycharm、SSH链接,上传文件速度快。强烈推荐&am…

B031-网络编程 Socket Http TomCat

目录 计算机网络网络编程相关术语IP地址ip的概念InerAdress的了解与测试 端口URLTCP、UDP和7层架构TCPUDPTCP与UDP的区别和联系TCP的3次握手七层架构 Socket编程服务端代码客户端代码 http协议概念Http报文 Tomcat模拟 计算机网络 见文档 网络编程相关术语 见文档 IP地址 …

【Proteus仿真】【STM32单片机】锂电池管理系统

文章目录 一、功能简介二、软件设计三、实验现象联系作者 一、功能简介 本项目使用Proteus8仿真STM32单片机控制器,使用LCD1602显示模块、DS18B20温度传感器、PCF8691 ADC模块、按键、LED蜂鸣器模块等。 主要功能: 系统运行后,LCD1602显示温…

2核2G3M带宽云服务器99元(续费同价),阿里云老用户可买!

在阿里云的双11云服务器活动中,用户对轻量服务器2核2G3M带宽和经济型e实例2核2G配置3M带宽特别关注。除了这两款产品,阿里云还提供了其他性价比很高的云服务器配置,让用户有更多的选择。 经济型e实例2核2G3M配置99元一年是适用于个人和普通企…

《向量数据库指南》——TruLens 用于语言模型应用跟踪和评估

TruLens 用于语言模型应用跟踪和评估 TruLens 是一个用于评估语言模型应用(如 RAG)的性能的开源库。通过 TruLens,我们还可以利用语言模型本身来评估输出、检索质量等。 构建语言模型应用时,多数人最关心的问题是 AI 幻觉(hallucination)。RAG 通过为语言模型提供检索上下文…

ython requests 库中 POST 方法的使用及文档改进

在使用Python库requests的过程中,发起者r1chardj0n3s遇到了一个关于POST方法的问题。他表示,他花费了一些时间才弄清楚requests.post函数的使用方法。然而,在requests的官方文档中,关于POST方法的描述只出现在API文档中&#xff0…

基于springboot实现医患档案管理系统项目【项目源码】计算机毕业设计

基于springboot实现医患档案管理系统演示 Java语言简介 Java是由SUN公司推出,该公司于2010年被oracle公司收购。Java本是印度尼西亚的一个叫做爪洼岛的英文名称,也因此得来java是一杯正冒着热气咖啡的标识。Java语言在移动互联网的大背景下具备了显著的…

【博客系统】 一

该博客系统基于servlet和mysql数据库 , 并且通过xshell终端工具部署至云服务器. 实现的功能包括: 1.博客列表页 2.博客详情页 3.登陆页面 4.强制登陆检查 5.获取用户信息 6.退出登陆 7.发布博客 一.系统展示 登陆页面 博客列表页 博客详情页 博客编辑页 下面就开始编写代码了.…

【Linux】Linux进程间通信(一)

​ ​📝个人主页:Sherry的成长之路 🏠学习社区:Sherry的成长之路(个人社区) 📖专栏链接:Linux 🎯长路漫漫浩浩,万事皆有期待 上一篇博客:【Linux】…

如何选择适合企业的数字化看板系统

数字化看板是一种数字化管理工具,它具有实时数据展示、任务分配与优先级管理、问题追踪与解决、供应链管理与协同以及数据分析与预测等功能。这些功能可以帮助企业提高生产效率、降低成本、优化资源配置并实现生产过程的透明化。 具体来说,数字化看板可以…

Navicat 使用

安装包请私信本人 软件安装 需要注意以下不要先运行navicat软件,先运行 在工具的第一个选项(1.Patch)里选择Backup,然后点击,Patch按钮,选择Navicat的安装位置中的navicat.exe文件 如果显示这样表示成功了 在这选择语言简体中文 点击Gener…

第五章 路由技术及应用

目录 5.1 直连路由概述 5.1.1 直连路由工作原理 5.1.2 直连路由配置 5.2 直连路由仿真 5.3 静态路由技术 5.3.1 静态路由定义 5.3.2 静态路由工作原理 5.3.3 静态路由配置 5.3.4 默认路由 (1) 默认路由概述 (2) 配置默认路由 (3) 默认路由应用场合:上网…

基于springboot实现疫苗接种管理系统项目【项目源码】计算机毕业设计

基于springboot实现疫苗接种管理系统演示 Java语言简介 Java是由SUN公司推出,该公司于2010年被oracle公司收购。Java本是印度尼西亚的一个叫做爪洼岛的英文名称,也因此得来java是一杯正冒着热气咖啡的标识。Java语言在移动互联网的大背景下具备了显著的…

3+差异分析+PPI+预后+实验的生信思路,简单直接容易上手

今天给同学们分享一篇生信文章“Identification of hub genes and pathways in lung metastatic colorectal cancer”,这篇文章发表在BMC Cancer期刊上,影响因子为3.8。 结果解读: 原发性和肺转移性CRC组织之间的差异表达基因的鉴定 使用在…

Spring Boot EasyPOI 使用指定模板导出Excel

相信大家都遇到过,用户提出要把界面上的数据导成一个Excel,还得是用户指定的Excel格式,用原生的POI,需要自己去实现,相信是比较麻烦的,所以我们可以使用开源的EasyPOI. 先上个图,看看是不是大家…