贝叶斯学习

贝叶斯

  • 贝叶斯学习的背景
  • 贝叶斯定理
      • 举例
  • 概览
    • 选择假设— MAP
      • MAP举例
    • 选择假设 — 极大似然 ML
        • ML 举例: 抛硬币问题
    • 极大似然 & 最小二乘
    • Naïve Bayesian Classifier (朴素贝叶斯分类器)
        • 举例1:词义消歧 (Word Sense Disambiguation)
        • 举例 2: 垃圾邮件过滤
      • 从垃圾邮件过滤中学到的经验
    • MDL (最小描述长度,Minimum Description Length)
      • MDL解释(基于信息理论)
      • MDL 和 MAP
      • 对MDL的另一个解释
  • 总结

贝叶斯学习的背景

  • 发现两件事情之间的关系 (因果分析, 先决条件 &结论) • 在我们的日常生活中,医生的疾病诊断可以被认为是一个贝叶斯学习过程
  • A → B A \rightarrow B AB
    • e.g. 肺炎 → \rightarrow 肺癌?
    • 很难直接判断
  • 反向思考
    • e.g. 有多少肺癌患者曾经得过肺炎?
      在这里插入图片描述

贝叶斯定理

在这里插入图片描述

P ( h ∣ D ) = P ( D ∣ h ) P ( h ) P ( D ) P(h|D) = \frac{P(D|h)P(h)}{P(D)} P(hD)=P(D)P(Dh)P(h)

举例: 某项化验测试结果与癌症诊断

  • P(h|D) = h的后验概率(posterior probability)
    P(h|D) : 已知测试结果=‘+’, 那么得了这种癌症的概率
  • P(h) = h的先验概率(prior probability)
    P(h) : 得这种癌症的概率
  • P(D)=D的先验概率
    P(D):测试结果 = ‘+’的概率
  • P(D|h) = 给定 h 情况下 D 的概率
    P(D|h):已知一个人得了这种癌症,那么测试结果为‘+’的概率
  • P(h)
    • 假设: 互相排斥
    • H假设空间: 完全详尽 ∑ P ( h i ) = 1 \sum P(h_i)=1 P(hi)=1
  • P(D)
    • D:所有可能数据中的一个采样集合
    • 与h相互独立
    • 在比较不同假设时可以忽略
  • P(D|h) (似然度 likelihood)
    • log likelihood log(P(D|h)

举例

  • 化验测试结果: +,患有某种癌症?
    P ( c a n c e r ∣ + ) = ? P(cancer|+)=? P(cancer+)=?

我们已知:

  • 正确的阳性样本: 98% (患有该癌症, 测试结果为 +)
  • 正确的阴性样本: 97% (未患该癌症, 测试结果为 -)
  • 在整个人群中,只有0.008 的人患这种癌症
    P ( c a n c e r ∣ + ) = P ( + ∣ c a n c e r ) P ( c a n c e r ) / P ( + ) = 0.98 ∗ 0.008 / ( 0.98 ∗ 0.008 + 0.03 ∗ 0.992 ) = 0.21 P(cancer | + ) = P(+| cancer) P(cancer) / P(+) = 0.98*0.008/(0.98*0.008+0.03*0.992)= 0.21 P(cancer+)=P(+cancer)P(cancer)/P(+)=0.980.008/(0.980.008+0.030.992)=0.21

P ( c a n c e r ) = 0.008 P(cancer) = 0.008 P(cancer)=0.008
P ( ¬ c a n c e r ) = 0.992 P(\neg cancer) = 0.992 P(¬cancer)=0.992

概览

  • 贝叶斯定理
    • 用先验概率来推断后验概率
  • M a x   A   P o s t e r i o r , M A P , h M A P ,极大后验假设 Max\ A\ Posterior, MAP, h_{MAP} ,极大后验假设 Max A Posterior,MAP,hMAP,极大后验假设
  • M a x i m u m L i k e l i h o o d , M L , h M L , 极大似然假设 Maximum Likelihood, ML, h_{ML}, 极大似然假设 MaximumLikelihood,ML,hML,极大似然假设
    • • ML vs. LSE (最小二乘,Least Square Error)
  • Naïve Bayes, NB, 朴素贝叶斯
    • 独立属性/特征假设
    • NB vs. MAP
  • Maximum description length, MDL (最小描述长度)
    • 权衡: 假设复杂度 vs. 假设带来的错误
    • MDL vs. MAP

选择假设— MAP

P ( h ∣ D ) = P ( D ∣ h ) P ( h ) P ( D ) P(h|D) = \frac{P(D|h)P(h)}{P(D)} P(hD)=P(D)P(Dh)P(h)

  • 一般我们需要在给定训练集上最有可能的假设
  • Maximum A Posteriori (MAP): (极大后验假设) hMA
    h M A P = a r g m a x h ∈ H P ( h ∣ D ) P ( h ) = a r g m a x h ∈ H P ( D ∣ h ) P ( h ) P ( D ) = a r g m a x h ∈ H P ( D ∣ h ) P ( h ) \begin{align*} h_{MAP} &= \underset{h \in H}{argmax}P(h|D)P(h) \\ &= \underset{h \in H}{argmax} \frac{P(D|h)P(h)}{P(D)} \\ &= \underset{h \in H}{argmax}P(D|h)P(h) \end{align*} hMAP=hHargmaxP(hD)P(h)=hHargmaxP(D)P(Dh)P(h)=hHargmaxP(Dh)P(h)

MAP举例

  • 实验室测试结果: +,患有某种特定癌症?

  • 当我们已知:

    • 正确的阳性: 98% (患癌, 检测结果 +)
    • 正确的阴性: 97% (不患癌, 检测结果 -)
    • 在整个人群中,只有 0.008 患有癌症
      a r g m a x h ∈ H P ( D ∣ h ) P ( h ) \underset{h \in H}{argmax}P(D|h)P(h) hHargmaxP(Dh)P(h)

    P ( + ∣ c a n c e r ) P ( c a n c e r ) = 0.0078 , P ( + ∣ ¬ c a n c e r ) P ( ¬ c a n c e r ) = 0.0298 P(+|cancer)P(cancer) =0.0078, P(+|\neg cancer)P(\neg cancer) = 0.0298 P(+cancer)P(cancer)=0.0078,P(+∣¬cancer)P(¬cancer)=0.0298
    h M A P = ¬ c a n c e r h_{MAP}= \neg cancer hMAP=¬cancer
    P ( c a n c e r ) = 0.008      P ( ¬ c a n c e r ) = 0.992 P ( + ∣ c a n c e r ) = 0.98      P ( − ∣ c a n c e r ) = 0.02 P ( + ∣ ¬ c a n c e r ) = 0.03      P ( − ∣ ¬ c a n c e r ) = 0.97 \begin{align*} P(cancer) = 0.008 \ \ \ \ &P(\neg cancer)=0.992 \\ P(+|cancer) = 0.98 \ \ \ \ &P(-|cancer) = 0.02 \\ P(+|\neg cancer) = 0.03 \ \ \ \ &P(-|\neg cancer) = 0.97 \\ \end{align*} P(cancer)=0.008    P(+cancer)=0.98    P(+∣¬cancer)=0.03    P(¬cancer)=0.992P(cancer)=0.02P(∣¬cancer)=0.97

    选择假设 — 极大似然 ML

    h M A P = a r g m a x h ∈ H P ( D ∣ h ) P ( h ) h_{MAP} = \underset {h \in H}{argmax}P(D|h)P(h) hMAP=hHargmaxP(Dh)P(h)
    在这里插入图片描述
    如果知道P(h),聪明的人总是能最大限度地从经验中学习

  • 如果我们完全不知道假设的概率分布,或者我们知道所有的假设发生的概率相同,那么MAP 等价于 Maximum Likelihood (hML 极大似然假设)
    h M L = a r g m a x h i i n H P ( D ∣ h i ) h_{ML} = \underset{h_i in H}{argmax}P(D|h_i) hML=hiinHargmaxP(Dhi)

ML 举例: 抛硬币问题

  • 2 个硬币: P1(H) = p,P2(H) = q
  • 抛1号硬币的概率是 a
  • 但是 a, p, q 未知的
  • 观察到一些产生序列:
    • 2HHHT,1HTHT, 2HHHT, 2HTTH
  • 估计 a, p, q 最有可能的值
  • “简单” 估计: ML (maximum likelihood,极大似然)
    - 抛一个(p,1-p)硬币 m 次,得到k 次 H 和 m-k 次 T
    l o g L ( D ∣ p ) = l o g P ( D ∣ p ) = l o g ( p k ( 1 − p ) m − k ) = k l o g p + ( m − k ) l o g ( 1 − p ) \begin{align*} logL(D|p) &= logP(D|p) \\ &=log(p^k(1-p)^{m-k} )\\ &=klogp+(m-k)log(1-p) \\ \end{align*} logL(Dp)=logP(Dp)=log(pk(1p)mk)=klogp+(mk)log(1p)
  • 求最大值,对 p 求导令导数为 0: d ( l o g L ( D ∣ p ) ) d p = k p − m − k 1 − p = 0 \frac{d(logL(D|p))}{dp} = \frac{k}{p} - \frac{m-k}{1-p} = 0 dpd(logL(Dp))=pk1pmk=0
  • 求解 p,得到: p = k / m p=k/m p=k/m

• 估计 a, p, q 最有可能的值
a = 1/4, p = 2/4, q = 8/12

极大似然 & 最小二乘

在这里插入图片描述

  • 训练数据: < x i , d i > <x_i,d_i> <xi,di>
  • d i = f ( x i ) + e i d_i = f(x_i) + e_i di=f(xi)+ei
    • di : 独立的样本.
    • f(xi): 没有噪声的目标函数值
    • ei: 噪声,独立随机变量,正态分布 N ( 0 , σ 2 ) N(0, σ^2) N(0,σ2)
  • → \rightarrow di : 正态分布 N ( f ( x i ) , σ 2 ) N(f(x_i),\sigma ^2) N(f(xi),σ2)
    在这里插入图片描述
    在这里插入图片描述
  • 独立随机变量,正态分布噪声 N ( 0 , σ 2 ) , h M L = h L S E N(0, \sigma^2), h_{ML} =h_{LSE} N(0,σ2),hML=hLSE

Naïve Bayesian Classifier (朴素贝叶斯分类器)

  • 假设目标函数 f : X → V X \rightarrow V XV,其中每个样本 x = (a1, a2, …, an). 那么最有可能的 f(x) 的值是:
    v M A P = a r g m a x v j ∈ V P ( x ∣ v j ) P ( v j ) v_{MAP} = \underset {v_j \in V}{argmax}P(x|v_j)P(v_j) vMAP=vjVargmaxP(xvj)P(vj)
  • 朴素贝叶斯假设:
    P ( x ∣ v j ) = P ( a 1 , a 2 . . . a n ∣ v j ) = ∏ i P ( a i ∣ v j ) P(x|v_j)=P(a_1,a_2...a_n|v_j)=\prod_iP(a_i|v_j) P(xvj)=P(a1,a2...anvj)=iP(aivj)
    每个属性 a 1 , a 2 . . . a n 独立 每个属性a_1,a_2...a_n独立 每个属性a1,a2...an独立
  • 朴素贝叶斯分类器:
    v N B = P v j ∈ V ( v j ) ∏ i P ( a i ∣ v j ) = a r g m a x v j ∈ V { l o g P ( v j ) + ∑ i l o g P ( a i ∣ v j ) } \begin{align*} v_{NB} &= \underset{v_j \in V}P(v_j)\prod_iP(a_i|v_j) \\ &=\underset{v_j \in V}{argmax}\{logP(v_j) + \sum_ilogP(a_i|v_j)\} \\ \end{align*} vNB=vjVP(vj)iP(aivj)=vjVargmax{logP(vj)+ilogP(aivj)}
    如果满足属性之间的独立性,那么 v M A P = v N B v_{MAP} = v_{NB} vMAP=vNB

举例1:词义消歧 (Word Sense Disambiguation)

  • e.g. fly =? bank = ?
  • 对于单词 w,使用上下文 c 进行词义消歧
    • e.g. A fly flies into the kitchen while he fry the chicken. (他在炸鸡时一只苍蝇飞进了厨房)
    • 上下文 c: 在词 w 周围的一组词wi(即:特征 / 属性)
    • si: 词 w 的第 ith 个含义(即:输出标签)
  • 朴素贝叶斯假设: P ( c ∣ s k ) = ∏ w i ∈ c P ( w i ∣ s k ) P(c|s_k)=\prod_{w_i \in c}P(w_i|s_k) P(csk)=wicP(wisk)
  • 朴素贝叶斯选择: s = a r g m a x s k { l o g P ( s k ) + ∑ w i ∈ c l o g P ( w i ∣ s k ) } s=\underset{s_k}{argmax}\{logP(s_k) + \sum_{w_i \in c}logP(w_i|s_k)\} s=skargmax{logP(sk)+wiclogP(wisk)}
    其中: P ( s k ) = C ( s k ) C ( w )       P ( w i ∣ s k ) = C ( w i , s k ) C ( s k ) P(s_k) = \frac{C(s_k)}{C(w)}\ \ \ \ \ P(w_i|s_k) = \frac{C(w_i,s_k)}{C(s_k)} P(sk)=C(w)C(sk)     P(wisk)=C(sk)C(wi,sk)

举例 2: 垃圾邮件过滤

在这里插入图片描述

  • 垃圾邮件量: 900亿/天,80% 来自 <200 发送者
  • 第四季度主要垃圾邮件来源 (数据来自 Sophos)
    • 美国 (21.3% 垃圾信息来源,较28.4%有所下降)
    • 俄罗斯 (8.3%, 较 4.4% 有上升)
    • 中国 (4.2%, 较 4.9% 有下降)
    • 巴西 (4.0%, 较 3.7% 有上升)

垃圾邮件过滤问题中人们学到的经验

  • 不要武断地忽略任何信息
    • E.g. 邮件头信息
  • 不同的代价: 假阳性 v.s. 假阴性
  • 一个非常好的参考报告: http://www.paulgraham.com/better.html

从垃圾邮件过滤中学到的经验

(根据报告:)
早期关于贝叶斯垃圾邮件过滤的论文有两篇,于1998年发表在同一个会议
在这里插入图片描述

1) 作者是 Pantel 和 Lin; 2) Microsoft 研究院的一个小组

Pantel 和 Lin的过滤方法效果更好
但它只能捕捉92%的垃圾邮件,且有1.16% 假阳性错误
文章作者实现了一个贝叶斯垃圾邮件过滤器
能捕捉 99.5%的垃圾邮件假阳性错误低于0.03%

Subject*FREE 0.9999
Subject*free 0.9782, 
free 0.6546 
free!! 0.9999
  • 5 处不同
  1. 他们训练过滤器的数据非常少:
    • 160 垃圾邮件和466非垃圾邮件
      2.最重要的一个不同可能是他们忽略了邮件头
      3.Pantel 和 Lin 对词进行了stemming (词干化) —— 做法有些草率了
      4.计算概率的方式不同。他们使用了全部的词,但作者只用了最显著的15个词
      5.他们
      没有对假阳性做偏置
      。而作者考虑了:对非垃圾邮件中出现的词频翻倍

MDL (最小描述长度,Minimum Description Length)

  • 奥卡姆剃刀:
    • 偏向于最短的假设
  • MDL:
    • 偏向假设 h 使得最小化: h M D L = a r g m i n h ∈ H { L C 1 ( h ) + L C 2 ( D ∣ h ) } h_{MDL}=\underset{h \in H}{argmin}\{L_{C_1}(h) + L_{C_2}(D|h)\} hMDL=hHargmin{LC1(h)+LC2(Dh)}
      其中 L C ( x ) L_C(x) LC(x)是 x在编码C下的 描述长度

MDL解释(基于信息理论)

  • 为随机发送的信息所设计的编码
    • 遇到消息 i 的概率是 pi
  • 所需的最短编码(最小期望传输位数)是什么?
    • 为可能性较大的消息赋予较短的编码
      在这里插入图片描述
  • 最优编码对消息i 的编码长度为 -log2 p 比特 [Shannon & Weaver 1949]
    在这里插入图片描述

MDL 和 MAP

-log2 p (h): 假设空间H最优编码下,h 的长度
-log2 p (D|h): 最优编码下,给定h 时D 的描述长度
在这里插入图片描述

对MDL的另一个解释

h M D L = a r g m i n h ∈ H { L C 1 ( h ) + L C 2 ( D ∣ h ) } h_{MDL} = \underset {h \in H}{argmin}\{L_{C_1}(h) + L_{C_2}(D|h)\} hMDL=hHargmin{LC1(h)+LC2(Dh)}

  • h的长度给定h编码数据的代价

    • 假设实例的序列以及编码规则对发送者和接收者来说都是已知的
    • 没有分类错误: 除h外不需要传输额外的信息
    • 如果 h 错误分类了某些样本,则需要传输:
        1. **哪个实例出错了? **
          – 最多 log2m (m: 实例的个数)
        1. **正确的分类结果是什么? **
          – 最多 log2k (k: 类别的个数)
  • 权衡: 假设的复杂程度 vs. 由假设造成的错误数

    • 更偏好 一个短的且错误更少的假设
      而不是一个长的但完美分类训练数据的假设
      在这里插入图片描述

总结

  • 贝叶斯定理
    • 用先验概率来推断后验概率
  • M a x   A   P o s t e r i o r , M A P , h M A P ,极大后验假设 Max\ A\ Posterior, MAP, h_{MAP} ,极大后验假设 Max A Posterior,MAP,hMAP,极大后验假设
  • M a x i m u m L i k e l i h o o d , M L , h M L , 极大似然假设 Maximum Likelihood, ML, h_{ML}, 极大似然假设 MaximumLikelihood,ML,hML,极大似然假设
    • • ML vs. LSE (最小二乘,Least Square Error)
  • Naïve Bayes, NB, 朴素贝叶斯
    • 独立属性/特征假设
    • NB vs. MAP
  • Maximum description length, MDL (最小描述长度)
    • 权衡: 假设复杂度 vs. 假设带来的错误
    • MDL vs. MAP

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/61609.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

小程序自定义tabBar+Vant weapp

1.构建npm&#xff0c;安装Vant weapp&#xff1a; 1&#xff09;根目录下 &#xff0c;初始化生成依赖文件package.json npm init -y 2&#xff09;安装vant # 通过 npm 安装 npm i vant/weapp -S --production 3&#xff09;修改 package.json 文件 开发者工具创建的项…

使用Idea提交项目到远程仓库

使用Idea提交项目到远程仓库 1.在Idea中打开本地要推送的项目2.创建远程仓库并提交 1.在Idea中打开本地要推送的项目 tips: 首先你得有git工具&#xff0c;没有的话可以参考下面的这篇文章 git与gitee结合使用&#xff0c;提交代码&#xff0c;文件到远程仓库 从导航栏中选择 V…

阿里云ssl免费数字证书快过期 如何更换

1.登陆阿里云 找到ssl 查看快过期的证书 数字证书管理服务-ssl证书 2.创建免费的证书&#xff0c;对应过期证书的域名 3.下载新证书 pem key放在本地 此处记录本地的下载路径 /Users/dorsey/Downloads/10791167_lzzabc.cn_nginx/lzzabc.cn.pem /Users/dorsey/Downloads/1…

maven的下载与安装

文章目录 1 官网下载地址2 设置环境变量3 设置仓库地址4 添加阿里云的中央镜像 1 官网下载地址 https://maven.apache.org/ 下载 2 设置环境变量 MAVEN_HOME PATH mvn -v验证 3 设置仓库地址 仓库地址 4 添加阿里云的中央镜像 阿里云中央镜像

Python(三)

诚信像一面镜子&#xff0c;一旦打破&#xff0c;你的人格就会出现裂痕。 存在短路的情景 谢谢观看 Python(三)

Kernel Exception导致手机重启案例分析

和你一起终身学习&#xff0c;这里是程序员Android 经典好文推荐&#xff0c;通过阅读本文&#xff0c;您将收获以下知识点: 一、高温触发 Kernel Exception 重启问题二、解决方案三、提高电池温度方案 一、 高温触发 Kernel Exception 重启问题 手机 电池温度 默认60度以上高温…

静态网页加速器:优化性能和交付速度的 Node.js 最佳实践

如何使用 Node.js 发布静态网页 在本文中&#xff0c;我们将介绍如何使用 Node.js 来发布静态网页。我们将创建一个简单的 Node.js 服务器&#xff0c;将 HTML 文件作为响应发送给客户端。这是一个简单而灵活的方法&#xff0c;适用于本地开发和轻量级应用。 1、创建静态网页…

mongodb-win32-x86_64-2008plus-ssl-3.6.23-signed.msi

Microsoft Windows [版本 6.1.7601] 版权所有 (c) 2009 Microsoft Corporation。保留所有权利。C:\Users\Administrator>cd C:\MongoDB\Server\3.6\binC:\MongoDB\Server\3.6\bin> C:\MongoDB\Server\3.6\bin> C:\MongoDB\Server\3.6\bin>mongod --dbpath C:\Mongo…

使用Golang实现一套流程可配置,适用于广告、推荐系统的业务性框架——简单应用

在诸如广告、推荐等系统中&#xff0c;我们往往会涉及过滤、召回和排序等过程。随着系统业务变得复杂&#xff0c;代码的耦合和交错会让项目跌入难以维护的深渊。于是模块化设计是复杂系统的必备基础。这篇文章介绍的业务框架脱胎于线上多人协作开发、高并发的竞价广告系统&…

stl_list类(使用+实现)(C++)

list 一、list-简单介绍二、list的常用接口1.常见构造2.iterator的使用3.Capacity和Element access4.Modifiers5.list的迭代器失效 三、list实现四、vector 和 list 对比五、迭代器1.迭代器的实现2.迭代器的分类&#xff08;按照功能分类&#xff09;3.反向迭代器(1)、包装逻辑…

Rust中的高吞吐量流处理

本篇文章主要介绍了Rust中流处理的概念、方法和优化。作者不仅介绍了流处理的基本概念以及Rust中常用的流处理库&#xff0c;还使用这些库实现了一个流处理程序。 最后&#xff0c;作者介绍了如何通过测量空闲和阻塞时间来优化流处理程序的性能&#xff0c;并将这些内容同步至…

Stephen Wolfram:嵌入的概念

The Concept of Embeddings 嵌入的概念 Neural nets—at least as they’re currently set up—are fundamentally based on numbers. So if we’re going to to use them to work on something like text we’ll need a way to represent our text with numbers. And certain…

快速实现一个div的水平垂直居中

效果 实现 给父盒子宽高和flex&#xff0c;子盒子margin&#xff1a;auto 代码 <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-sc…

No112.精选前端面试题,享受每天的挑战和学习

文章目录 说一说JavaScript有几种方法判断变量的类型&#xff1f;说一说defer和async区别&#xff1f;HTTP&#xff08;超文本传输协议&#xff09;是什么&#xff1f;说一下浏览器输入URL发生了什么&#xff1f;一只青蛙一次可以跳上1级台阶&#xff0c;也可以跳上2级。求该青…

rest api client code generator

一、搜索&#xff1a;REST API Client Code Generator 二、 安装成功后 配置java环境和node环境

软件使用 | jupyter notebook 使用技巧大全

本文记录使用 jupyter notebook 的使用方法。 更新&#xff1a;2023 / 8 / 6 软件使用 | jupyter notebook 使用技巧大全 图片表格参考链接 图片 插入图片并控制大小和对其方式 1: <img src"https://www.domain.com/image_file_name.jpg" alt"ImageFile&…

MFC第二十八天 WM_SIZE应用,CFrameWnd类LoadFrame的方法,PreCreateWindow窗口预处理,Frame-view窗口视图

文章目录 WM_SIZE应用通过WM_SIZE消息实现窗口布局管理通过控件属性实现窗口布局管理 CFrameWnd类CFrameWnd类简介OnCreate和OnCreateClient的方法注册时的要素与窗口设置PreCreateWindow创建窗口的预处理函数 附录预处理函数的结构体CFrameWnd::LoadFrame与CreateFrame WM_SIZ…

程序环境和预处理(含C语言程序的编译+链接)--2

文章前言&#xff1a; 上章我们把 程序的翻译环境 程序的执行环境 C语言程序的编译链接 预定义符号介绍 预处理指令 #define 宏和函数的对比 预处理操作符 #和##的介绍 的相关知识进行了梳理讲解&#xff0c;接下来被把剩余知识 命令定义 …

机器学习:训练集与测试集分割train_test_split

1 引言 在使用机器学习训练模型算法的过程中&#xff0c;为提高模型的泛化能力、防止过拟合等目的&#xff0c;需要将整体数据划分为训练集和测试集两部分&#xff0c;训练集用于模型训练&#xff0c;测试集用于模型的验证。此时&#xff0c;使用train_test_split函数可便捷高…

数字孪生的「三张皮」问题:数据隐私、安全与伦理挑战

引言 随着数字化时代的来临&#xff0c;数据成为了当今社会的宝贵资源。然而&#xff0c;数据的广泛使用也带来了一系列隐私、安全与伦理挑战。数字孪生作为一种虚拟的数字化实体&#xff0c;通过收集和分析大量数据&#xff0c;模拟和预测现实世界中的各种情境&#xff0c;为…