基于实例的学习方法

基于实例的学习方法

  • 动机
  • 基本概念
      • 基于实例的学习
        • 基于实例的概念表示
    • 1. 最近邻
      • 最近邻的例子
      • 理论结果
      • 最近邻(1- NN):解释
      • 问题
  • K-近邻(KNN)
    • KNN讨论1 :距离度量
    • KNN 讨论2:属性
      • KNN:属性归一化
      • KNN:属性加权
    • KNN讨论3:连续取值目标函数
    • KNN讨论4 : k的选择
    • KNN讨论5:打破平局
    • KNN 讨论 6: 关于效率
      • KD-Tree: ( 1) 构建
      • KD-Tree: ( 2) 查询
    • KNN 总览:优点与缺点
      • 优点
      • 缺点
    • 下一个问题
  • 距离加权 KNN (Distance-weighted KNN)
    • 距离加权 KNN
    • 回顾
    • 基于实例/记忆的学习器: 4 个要素
      • 1-NN
      • K-NN
      • 距离加权 KNN
  • 扩展:局部加权回归 (Locally weighted regression)
    • 局部加权回归 (例子)
    • 局部加权回归
  • 真实测试样例下 不同基于实例的算法表现举例
    • 线性回归
    • 1- 近邻
    • K -近邻(k=9)
    • 距离加权回归(核回归)
    • 局部加权回归
  • 懒惰学习与贪婪学习 Lazy learner and Eager Learner
    • 不同的学习方法
      • 懒惰学习vs. 贪婪学习(lazy learner vs eager leaner)
        • 懒惰
        • 贪婪
  • 基于实例的学 习总结

动机

  • 之前【三步走】的学习方法

    • 估计问题特性(如分布)
    • 做出模型假设
      • LSE,Decision Tree,MAP,MLE,Naive Bayes ,…
    • 找到最优的参数
  • 有没有一种学习方法**不遵循【模型假设+参数估计】

  • 人们通过记忆和行动来推理学习

  • 思考即回忆、进行类比Thinking is reminding,making analogies

  • One takes the behavior of one’s company[近朱者赤,近墨者黑]

在这里插入图片描述

基本概念

  • 参数化(Parametric) vs.非参数化(Non-parametric)

    • 参数化:
      • 设定一个特定的函数形式
      • 优点:简单,容易估计和解释
      • 可能存在很大的偏置(bias):实际的数据分布可能不遵循假设的分布
  • 非参数化:

    • 分布或密度的估计是数据驱动的(data-driven)
    • 需要事先对函数形式作的估计相对更少
  • Instance-Based Learning (IBL):基于实例的学习
    or Instance Based Methods (IBM):基于实例的方法

  • Memory-Based Learning :基于记忆的学习

  • Case-Based Learning :基于样例的学习

  • Similarity-Based Learning :基于相似度的学习

  • Case-Based Reasoning :基于样例的推理

  • Memory-Based Reasoning :基于记忆的推理

  • Similarity-Based Reasoning :基于相似度的推理

基于实例的学习

  • 无需构建模型一一仅存储所有训练样例
  • 直到有新样例需要分类才开始进行处理
    在这里插入图片描述
    如上图,2个发了信用卡,3个没发,只需要存下来,新来了一个人要不要发新用卡,看他和哪些类似,发送和发信用卡的类似,那就给他发信用卡。

基于实例的概念表示

  • 一个概念 c i c_i ci可以表示为:
    • 样例的集合 c i = { e i 1 , e i 2 , . . . } c_i = \{e_{i1}, e_{i2},...\} ci={ei1,ei2,...},
    • 一个相似度估计函数 f f f,以及
    • —个阈值0
  • 一个实例’a’属于概念 c i c_i ci,当
    • 'a’和ci的某些ej相似,并且
    • f ( e j , a ) > θ f(e_j, a)>\theta f(ej,a)>θ

1. 最近邻

  • 相似度 ← → 距离 相似度\leftarrow\rightarrow距离 相似度←→距离
    一般用距离来描述相似度,成反比关系,距离越大,相似度越小
    在这里插入图片描述

最近邻的例子

信用评分
分类:好/坏(good/poor)
特征:

  • L = 延迟还款的次数/年
  • R =收入/花销
nameLRG/P
A01.2G
B250.4P
C50.7G
D200.8P
E300.85P
F111.2G
G71.15G
H150.8P

在这里插入图片描述
如上在二维坐标系中的表示,因为在欧氏空间中表示的,那用欧氏距离表示,

nameLRG/P
I61.15?
J220.45?
K151.2?

在这里插入图片描述

距离度量:

  • 缩放的欧氏距离 ( L 1 − L 2 ) 2 + ( 10 R 1 − 10 R 2 ) 2 \sqrt{(L_1 - L_2)^2 + (10R_1-10R_2)^2} (L1L2)2+(10R110R2)2

理论结果

  • 无限多训练样本下1-NN的错误率界限:
    E r r ( B y t e s ) ≤ E r r ( 1 − N N ) ≤ E r r ( B y t e s ) ( 2 − K K − 1 E r r ( B a y e s ) ) Err(Bytes)\le Err(1-NN) \le Err(Bytes)\left(2-\frac{K}{K-1}Err(Bayes)\right) Err(Bytes)Err(1NN)Err(Bytes)(2K1KErr(Bayes))
  • 证明很长(参照Duda et al, 2000)
  • 因此1-NN的错误率不大于Bayes方法错误率的2倍

最近邻(1- NN):解释

在这里插入图片描述

  • Voronoi Diagram

  • Voronoi tessellation

  • 也称为 Dirichlet tessellation

  • Voronoi decomposition

  • 对于任意欧氏空间的离散点集合S,以及几乎所有的点x, S中一定有一个和x最接近的点

    • -没有说“所有的点”是因为有些点可能和两个或多个点距离相等(在边界上)
      -如果是边界上的点,则可以随机、按概率算或其它

问题

在这里插入图片描述

  • 最近邻的点是噪音怎么办?
  • 解决方法
    • 用不止一个邻居
    • 在邻居中进行投票 → \rightarrow k-近邻(KNN)
      如上面的例子,如果用1-近邻,则会是黑色,如上,用3近邻,因此是绿色。

K-近邻(KNN)

KNN:示例(3-NN)

顾客年龄收入(K)卡片数结果距David距离
John35353No ( 35 − 27 ) 2 + ( 35 − 50 ) 2 + ( 3 − 2 ) 2 = 15.16 \sqrt{(35-27)^2+(35-50)^2+(3-2)^2}=15.16 (3527)2+(3550)2+(32)2 =15.16
Mary22502Yes ( 22 − 37 ) 2 + ( 50 − 50 ) 2 + ( 2 − 2 ) 2 = 15 \sqrt{(22-37)^2+(50-50)^2+(2-2)^2}=15 (2237)2+(5050)2+(22)2 =15
Hannah632001No ( 63 − 37 ) 2 + ( 200 − 50 ) 2 + ( 1 − 2 ) 2 = 152.23 \sqrt{(63-37)^2+(200-50)^2+(1-2)^2}=152.23 (6337)2+(20050)2+(12)2 =152.23
Tom591701No ( 59 − 37 ) 2 + ( 170 − 50 ) 2 + ( 1 − 2 ) 2 = 122 \sqrt{(59-37)^2+(170-50)^2+(1-2)^2}=122 (5937)2+(17050)2+(12)2 =122
Nellie25404Yes ( 25 − 37 ) 2 + ( 40 − 50 ) 2 + ( 4 − 2 ) 2 = 15.74 \sqrt{(25-37)^2+(40-50)^2+(4-2)^2}=15.74 (2537)2+(4050)2+(42)2 =15.74
David37502Yes-

新来了一个David顾客,求他的结果

  • 计算David与其它顾客的距离,找到最小的3个距离,这三个投票得是YES

KNN讨论1 :距离度量

  • Minkowski或 L λ L_\lambda Lλ度量: d ( i , j ) = ( ∑ k = 1 p ∣ x k ( i ) − x k ( j ) ∣ λ ) 1 λ d(i,j)=\left(\sum_{k=1}^{p}|x_k(i)-x_k(j)|^\lambda\right)^{\frac{1}{\lambda}} d(i,j)=(k=1pxk(i)xk(j)λ)λ1
    k: 指的是维度,i和j指不同的数据点
    计算在相同维度上不同点差值的绝对值的 λ \lambda λ次方,然后不同维度求和再开 λ \lambda λ次方
    λ \lambda λ次方取不同值时, L λ L_\lambda Lλ距离表示的就是如下图形
    在这里插入图片描述

  • 欧几里得距离 ( λ = 2 ) (\lambda=2) (λ=2) d i j = ∑ k = 1 p ( x i k − x j k ) 2 d_{ij}=\sqrt{\sum_{k=1}^{p}(x_{ik}-x_{jk})^2} dij=k=1p(xikxjk)2

  • 曼哈顿距离 Manhattan Distance
    城市街区距离City block Dis.
    出租车距离 Taxi Distance
    或L1度量( λ = 1 \lambda=1 λ=1): d ( i , j ) = ∑ k = 1 p ∣ x k ( i ) − x k ( j ) ∣ d(i,j)=\sum_{k=1}^{p}|x_k(i)-x_k(j)| d(i,j)=k=1pxk(i)xk(j)
    在曼哈顿,街区都类似如下,不能走斜线,
    在这里插入图片描述

    • 切比雪夫距离(Chebyshev Distance)
      棋盘距离(Chessboard Dis.)
      L ∞ L_{\infty} L
      d ( i , j ) = m a x k ∣ x k ( i ) − x k ( j ) ∣ d(i,j)=\underset{k}{max}|x_k(i)-x_k(j)| d(i,j)=kmaxxk(i)xk(j)
      国际象棋可以走斜线,因此两点之间取决于x差值和y差值的最大值在这里插入图片描述
  • 加权欧氏距离
    Mean Censored Euclidean
    Weighted Euclidean Distance
    ∑ k ( x j k − x j k ) 2 / n \sqrt{\sum_k(x_{jk}-x_{jk})^2/n} k(xjkxjk)2/n
    欧氏距离每多一个维度,距离就更大一些,除以n后,维度的影响就降低了

  • Bray-Curtis Dist ∑ k ∣ x j k − x j k ∣ / ∑ k ( x j k − x j k ) \sum_{k} |x_{jk}-x_{jk}|\bigg/\sum_{k} (x_{jk}-x_{jk}) kxjkxjk/k(xjkxjk)
    两个数据量点的差值和除以两个数据点的和的和
    一般用于生物学上描述多样性用的比较多

  • 堪培拉距离C anberra Dist. ∑ k ∣ x j k − x j k ∣ / ( x j k − x j k ) k \frac{\sum_{k} {|x_{jk}-x_{jk}|\big/(x_{jk}-x_{jk})}}{k} kkxjkxjk/(xjkxjk)
    就是在Bray- Curtis Dist基础上做一些缩放

KNN 讨论2:属性

在这里插入图片描述

  • 邻居间的距离可能被某些取值特别大的属性所支配
    • e.g.收入 D i s ( J o h n , R a c h e l ) = ( 35 − 45 ) 2 + ( 95000 − 215000 ) 2 + ( 3 − 2 ) 2 Dis(John, Rachel)=\sqrt {(35-45)^2 + (95000-215000)^2+(3-2)^2} Dis(John,Rachel)=(3545)2+(95000215000)2+(32)2
      -对特征进行**归一化(Normalization)**是非常重要的(e.g.,把数值归一化到[0-1])
    • Log, Min-Max, Sum,Max…
    • log只是对数据进行了放缩,没有归一化到[0-1],有个优点:数据会变得相对均匀
    • Min-Max: S c o r e − M i n M a x − M i n \frac{Score-Min}{Max-Min} MaxMinScoreMin
    • Sum: S c o r e ∑ S c o r e \frac{Score}{\sum Score} ScoreScore
    • Max: S c o r e M a x \frac{Score}{Max} MaxScore

KNN:属性归一化

顾客年龄收入(K)卡片数结果
John35/63=0.5535/200=0.1753/4=0.75No
Mary22/63=0.3450/200=0.252/4=0.5Yes
Hannah63/63=1200/200=11/4=0.25No
Tom59/63=0.93170/200=0.851/4=0.25No
Nellie25/63=0.3940/200=0.24/4=1Yes
David37/63=0.5850/200=0.252/4=0.5Yes

KNN:属性加权

  • 一个样例的分类是基于所有属性的
    • 与属性的相关性无关——无关的属性也会被使用进来
  • 根据每个属性的相关性进行加权 d W E ( i , j ) = ( ∑ k = 1 p w k ( x k ( i ) − x k ( j ) ) 2 ) 1 2 d_{WE}(i,j)=\left(\sum_{k=1}^{p}w_k(x_k(i)-x_k(j))^2\right)^\frac{1}{2} dWE(i,j)=(k=1pwk(xk(i)xk(j))2)21
  • 在距离空间对维度进行缩放
    • ( L 1 − L 2 ) 2 + ( 10 R 1 − 10 R 2 ) 2 \sqrt{(L_1 - L_2)^2 + (10R_1-10R_2)^2} (L1L2)2+(10R110R2)2
    • wk = 0 → \rightarrow 消除对应维度(特征选择)
  • 一个可能的加权方法
    使用互信息(mutual information)/(属性,类别)
    I ( X , Y ) = H ( X ) + H ( Y ) − H ( X , Y ) I(X,Y) = H(X)+H(Y)-H(X,Y) I(X,Y)=H(X)+H(Y)H(X,Y) H:熵(entropy)
    Y是类别,最后的标签
    H ( X , Y ) = − ∑ p ( x , y ) l o g p ( x , y ) H(X,Y) = -\sum p(x,y)logp(x,y) H(X,Y)=p(x,y)logp(x,y) 联合熵 (joint entropy)(利用熵的公式 H ( y ) = − ∑ p ( y ) l o g p ( y ) H(y) = -\sum p(y)logp(y) H(y)=p(y)logp(y))
    x和y接近关系不同,互信息不同,利用互信息来代表这个维度的重要性wk

KNN讨论3:连续取值目标函数

  • 离散输出-投票
  • 连续取值目标函数
    • k个近邻训练样例的均值
      红色:实例的真实值     蓝色:估计值 红色:实例的真实值 \ \ \ \ \ 蓝色:估计值 红色:实例的真实值     蓝色:估计值
      在这里插入图片描述
      3近邻相比1近邻,比较平滑,阶梯没那么多;k越大,相对越平滑,但也可能损失掉细节,

KNN讨论4 : k的选择

  • 多数情况下k=3
  • 取决于训练样例的数目
    • 更大的k不一定带来更好的效果
  • 交叉验证
    • Leave-one-out (Throw-one-out, Hold-one-out)
      • 每次:拿一个样例作为测试,所有其他的作为训练样例
        KNN本来就是看样例点和其它点的距离,少算一个,拿它当测试,因此KNN天然适合用leave-one-out方法来做;如果n个样例,那就可以做n次,求评价指标时就可以求均值,看在验证集上k是多少最好
  • KNN是稳定的
    • 样例中小的混乱不会对结果有非常大的影响
      k越大,相对越稳定,但是会丢掉好多细节

KNN讨论5:打破平局

在这里插入图片描述

  • 如果k=3并且每个近邻都属于不同的类 ?(一般都不等于类别数,因为可能每个恰好属于不同类,而且一般不等于偶数,很容易出现对半情况)
    • P(W|X)=1/3
    • 或者找一个新的邻居(4th)
    • 或者取最近的邻居所属类
    • 或者随机选一个
    • 或者 …

之后会讨论一个更好的解决方案(距离加权)

KNN 讨论 6: 关于效率

  • KNN算法把所有的计算放在新实例来到时,实时计算开销大
  • 加速对最近邻居的选择
    • 先检验临近的点
    • 忽略比目前找到最近的点更远的点
  • 通过 KD-tree 来实现:(k dimension tree)
    • KD-tree: k 维度的树 (数据点的维度是 k)
    • 基于树的数据结构
    • 递归地将点划分到和坐标轴平行的方形区域内

KD-Tree: ( 1) 构建

  • 从一系列数据点出发
    在这里插入图片描述
PtXY
10.000.00
21.004.31
30.132.85

在这里插入图片描述

    • 我们可以选择一个维度 X 和分界值 V 将数据点分为两组: X > V 和 X <= V
      在这里插入图片描述
  • 接下来分别考虑每个组,并再次分割(可以沿相同或不同的维度)
    在这里插入图片描述
  • 持续分割每个集合中的数据点, 从而构建一个树形结构
    每个叶节点表示为一系列数据点的列表(分割时是将数据点均匀分割,使分割后两个区域的数据点大致相同)
    在这里插入图片描述

在每个节点维护一个额外信息:这个节点下所有数据点的 (紧) 边界
紧边界,一个只包含数据点的矩形区域
在这里插入图片描述
用启发式的方法去决定如何分割

  • 沿哪个维度分割?
    • 范围最宽的维度(范围最大的,即数据点饭不最散的)
  • 分割的值怎么取?
    • 数据点在分割维度的中位数
    • 为什么是「中位数」而不是「均值」?(尽量让每个区域数据点数目相同)
  • 什么时候停止分割?
    • 当剩余的数据点少于 m,或者
    • 区域的宽度达到最小值
      (数据点也不用严格小于m,小于m只是一个权衡)

KD-Tree: ( 2) 查询

  • 遍历树,来查找所查询数据点的最近邻居
    在这里插入图片描述
  • 先检验临近的点 :关注距离所查询数据点最近的树的分支
    节点分支是由原则的,如大于根节点(0.5)的在右子树,而查询点如果大于0.5,则可以缩小范围–右子树,
    在这里插入图片描述
    到了这一步,如图看y,又可以确定在某一子树上,
    在这里插入图片描述
  • 达到一个叶节点后 :计算节点中每个数据点距离目标点的距离
    在这里插入图片描述
    在这里插入图片描述

接着回溯检验我们访问过的每个树节点的另一个分支
在这里插入图片描述

  • 每次我们找到一个最近的点,就更新距离的上界
    如发现距离另外一个分支的一些点更近,此时更新查询点的距离的上界
    在这里插入图片描述
  • 利用这个最近距离以及每个树节点下数据的边界信息,(如果新找到的边界已经比目前找到的最近邻更远,则不可能存在更近的点。因此就不计算这个新分支上的点了)
    我们可以对一部分不可能包含最近邻居的分支进行剪枝
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    因此我们只计算了上述的点(记录边界是为了剪枝减小计算量的)

KNN 总览:优点与缺点

优点

  • 概念上很简单,但可以处理复杂的问题(以及复杂的目标函数)
    • e.g. 图片分类
  • 通过对k-近邻的平均, 对噪声数据更鲁棒
  • 容易理解 :预测结果可解释(最近邻居)
  • 训练样例中呈现的信息不会丢失
    • 因为样例本身被**显式(explictly)**地存储下来了
  • 实现简单、稳定、没有参数(除了 k)
  • 方便进行 leave-one-out 测试

缺点

  • 内存开销
    • 需要大量的空间存储所有样例
    • 通常来说,需要存储任意两个点之间的距离 O(n2) ; K-DTrees O(nlogn)
  • CPU 开销
    • 分类新样本需要更多的时间(因此多用在离线场景)
  • 很难确定一个合适的距离函数
    • 特别是当样本是由复杂的符号表示时(距离需要自己定义,影响到相似度的计算,也就是knn的计算)
  • 不相关的特征 对距离的度量有负面的影响
    • 基于先验证知识或统计给予一定的权重,引用了新参数

下一个问题

  • 回忆:用多个邻居使得对噪声数据鲁棒
    这些邻居的贡献是一样的吗?
  • 解决方案
    • 对数据加权
    • 更接近所查询数据点的邻居赋予更大的权 → \rightarrow 距离加权近邻

距离加权 KNN (Distance-weighted KNN)

距离加权 KNN

  • 一种加权函数
    • wi = K(d(xi, xq))
      K是Kernel function(kernel方向,在后面的向量机里也会提到)
    • d(xi, xq) :查询数据点与 xi 之间的关系
    • K( ·) :决定每个数据点权重的核函数(距离越大,权重越低)
  • 输出: 加权平均: p r e d i c t = ∑ w i y i / ∑ w i predict = \sum w_i y_i \left/ \sum w_i \right. predict=wiyi/wi (使得加权平均式没有经过太大的放缩)
  • 核函数 K(d(xi, xq))
    • 1/d2, e − d e^{-d} ed, 1/(1+d), … 应该和距离 d 成反比

回顾

在这里插入图片描述
距离加权 NN
加d0,平滑了很多,smoothing flater,这个还是很有用的,它是一个常数
在这里插入图片描述
下面的公式用了正态分布的高斯核函数,几乎接近完美
在这里插入图片描述

基于实例/记忆的学习器: 4 个要素

  1. 一种距离度量
  2. 使用多少个邻居?
  3. 一个加权函数(可选)
  4. 如何使用已知的邻居节点?

1-NN

在这里插入图片描述

基于记忆的学习器:4 个要素

  1. 一种距离度量 欧式距离
  2. 使用多少个邻居? 一个
  3. 一个加权函数(加权)
  4. 如何使用已知的邻居节点? 和邻居节点相同

K-NN

在这里插入图片描述

基于记忆的学习器:4 个要素

  1. 一种距离度量 欧式距离
  2. 使用多少个邻居? K 个
  3. 一个加权函数(加权)
  4. 如何使用已知的邻居节点? K 个邻居节点投票(或平均Mean)

距离加权 KNN

在这里插入图片描述

基于记忆的学习器: 4 个要素

  1. 一种距离度量 缩放的欧式距离
  2. 使用多少个邻居? 所有的,或K 个
  3. 一个加权函数(可选)
    w i = e x p ( − D ( x i , q u e r y ) 2 / K w 2 ) w_i = exp(-D(x_i, query)^2 / K_w^2) wi=exp(D(xi,query)2/Kw2)
    Kw :核宽度。非常重要(是个常量,需手动指定)
  4. 如何使用已知的邻居节点?每个输出的加权平均 p r e d i c t = ∑ w i y i / ∑ w i predict = \sum w_iy_i / \sum w_i predict=wiyi/wi

扩展:局部加权回归 (Locally weighted regression)

  • 回归:对实数值目标函数做估计/预测
  • 局部: 因为函数的估计是基于与所查询数据点相近的数据
  • 加权:每个数据点的贡献由它们与所查询数据点的距离决定

局部加权回归 (例子)

在这里插入图片描述
上面例子中局部加权回归用4个线性直线(有两个几乎重合)很好的拟合了数据,和简单回归效果好很多,如果分的足够小的话,每一个小块一定是线性的

局部加权回归

在这里插入图片描述
基于记忆的学习器:4 个要素

  1. 一种距离度量 缩放的欧式距离
  2. 使用多少个邻居? 所有的,或K 个
  3. 一个加权函数(可选)
    e.g. w i = e x p ( − D ( x i , q u e r y ) 2 / K w 2 ) w_i = exp(-D(x_i, query)^2 / K_w^2) wi=exp(D(xi,query)2/Kw2)
    Kw :核宽度。非常重要
  4. 如何使用已知的邻居节点?
    首先构建一个局部的线性模型。拟合 β \beta β 最小化局部的加权平方误差和: β ‾ = a r g m i n β ∑ k = 1 N w k 2 ( y k − β T x k ) 2 \underline\beta=\underset{\beta}{argmin} \sum_{k=1}^{N} w_k^2(y_k-\beta^Tx_k)^2 β=βargmink=1Nwk2(ykβTxk)2
    那么 y p r e d i c t = β ‾ T x q u e r y y_{predict} = \underline\beta^T x_{query} ypredict=βTxquery

真实测试样例下 不同基于实例的算法表现举例

线性回归

在这里插入图片描述
第一个: 不能使用线性假设
第三个:看起来就像是噪声数据的影响

  • 连接所有点
    在这里插入图片描述

1- 近邻

在这里插入图片描述
甚至比连接所有点还差,比如第二个没有连接所有点平滑

K -近邻(k=9)

在这里插入图片描述
以上三个图都是在开始和结束也损失掉很大的细节

距离加权回归(核回归)

在这里插入图片描述
Kw=x轴宽度的1/32,就是将数据分成32份,每1/32的数据对当前的影响较大一些
最右的图,1/16是调参调出来的,但是和简单线性回归比,不知道是不是发生过拟合(对噪声拟合了一些),效果不好确定

选择一个合适的 Kw 非常重要,不仅是对核回归,对所有局部加权学习器都很重要(包括distance weighted 距离加权回归)

局部加权回归

在这里插入图片描述
不一定局部加权回归是最好的,因为参数量( β T \beta^T βT)很大,因此需要数据量很大才适合

懒惰学习与贪婪学习 Lazy learner and Eager Learner

贪婪学习与主动学习(active learner)是有区别的,(主动学习是:先训练一部分,然后问teacher,这个数据的label是什么,然后把label加到训练了,然后学了一段时间后,再问,而且每次问都是挑一些对下一步有用的)

不同的学习方法

  • 贪婪学习
    比如: 先建一个模型,从过去的数据集里得到一个模型,这个模型是:总结中经验,产生任何行动都是有老鼠。现在来了一个点,就说看到一只老鼠。
    之前说的:线性回归、决策树、贝叶斯的方法都是eager leaner
    在这里插入图片描述
  • 懒惰学习 (例如基于实例的学习)
    lazy leaner :比如:有一对样例,啥都不干 只保存,来了一个新的例子,它和电脑很像,就认为它是电脑
    在这里插入图片描述

懒惰学习vs. 贪婪学习(lazy learner vs eager leaner)

懒惰

  • 懒惰 :等待查询再泛化(generalization,一般化)

    • 训练时间 :短
    • 测试时间 :很长
  • 懒惰学习器

    • 可以得到局部估计(如KNN)

贪婪

  • 贪婪 :查询之前就泛化(y=f(x))

    • 训练时间 :长
    • 测试时间:短
  • 贪婪学习器

    • 对于每个查询使用相同的模型
    • 倾向于给出全局估计(比如决策树的搜索过程得到的是局部估计,梯度下降也是局部最优)

如果它们共享相同的假设空间,懒惰学习可以表示更复杂的函数
( e.g. H=线性函数)

基于实例的学 习总结

  • 基本概念与最近邻方法
  • K近邻方法
    • 基本算法
    • 讨论:更多距离度量;属性:归一化、加权;连续取值目标函数; k 的选择;打破平局;关于效率(K-Dtree的构建与查询)
  • 距离加权的KNN
  • 基于实例的学习器的四要素
  • 扩展:局部加权回归
  • 真实测试样例下的算法表现举例
  • 懒惰学习与贪婪学习

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/102713.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

广州华锐互动:VR垃圾分类虚拟科普系统让学习过程更加丰富有趣

在我们的日常生活中&#xff0c;垃圾分类已成为一项重要的公民责任。然而&#xff0c;由于缺乏对垃圾分类的深入理解和相关知识&#xff0c;许多人在实践中往往感到困惑和挫败。为了解决这个问题&#xff0c;一种创新的解决方案应运而生&#xff1a;垃圾分类VR虚拟仿真教学系统…

第 3 章 栈和队列 (循环队列)

1. 背景说明 和顺序栈相类似&#xff0c;在队列的顺序存储结构中&#xff0c;除了用一组地址连续的存储单元依次存放从队列头到队列尾的元素之外&#xff0c; 尚需附设两个指针 front 和 rear 分别指示队列头元素及队列尾元素的位置。约定&#xff1a;初始化建空队列时&#x…

react17:生命周期函数

挂载时更新时 setState触发更新、父组件重新渲染时触发更新forceUpdate触发更新卸载时 react&#xff08;v17.0.2&#xff09;的生命周期图谱如下。 相较于16版本&#xff0c;17版本生命周期函数有如下变化&#xff1a; componentWillMount() componentWillUpdate() compone…

ICCV 2023 | 小鹏汽车纽约石溪:局部上下文感知主动域自适应LADA

摘要 主动域自适应&#xff08;ADA&#xff09;通过查询少量选定的目标域样本的标签&#xff0c;以帮助模型从源域迁移到目标域。查询数据的局部上下文信息非常重要&#xff0c;特别是在域间差异较大的情况下&#xff0c;然而现有的ADA方法尚未充分探索这一点。在本文中&#…

【德哥说库系列】-ASM管理Oracle 19C单实例部署

&#x1f4e2;&#x1f4e2;&#x1f4e2;&#x1f4e3;&#x1f4e3;&#x1f4e3; 哈喽&#xff01;大家好&#xff0c;我是【IT邦德】&#xff0c;江湖人称jeames007&#xff0c;10余年DBA及大数据工作经验 一位上进心十足的【大数据领域博主】&#xff01;&#x1f61c;&am…

【2023研电赛】安谋科技企业命题三等奖作品: 短临天气预报AI云图分析系统

本文为2023年第十八届中国研究生电子设计竞赛安谋科技企业命题三等奖分享&#xff0c;参加极术社区的【有奖活动】分享2023研电赛作品扩大影响力&#xff0c;更有丰富电子礼品等你来领&#xff01;&#xff0c;分享2023研电赛作品扩大影响力&#xff0c;更有丰富电子礼品等你来…

【LeetCode】227. 基本计算器 II

227. 基本计算器 II&#xff08;中等&#xff09; 方法&#xff1a;双栈解法 思路 我们可以使用两个栈 nums 和 ops 。 nums &#xff1a; 存放所有的数字ops &#xff1a;存放所有的数字以外的操作 然后从前往后做&#xff0c;对遍历到的字符做分情况讨论&#xff1a; 空格 …

【项目经验】:elementui表格中表头的多选框换成文字

一.项目需求 表格可以多选&#xff0c;表头都是汉字。。。。类似于这种 二.实现功能 用到的方法 Table Attributes 参数说明类型可选值默认值header-cell-class-name表头单元格的 className 的回调方法&#xff0c;也可以使用字符串为所有表头单元格设置一个固定的 className。…

C++文件操作

一、fstream简介 C 提供了一组用于文件操作的标准库fstream&#xff0c;可以进行文件的读取、写入和其他相关操作。常用的文件操作包括文件的打开、关闭、读取、写入和定位等。下面是一些常见的文件操作函数&#xff1a; 文件的打开和关闭&#xff1a; std::ofstream&#x…

点可云进销存开源系统V6.0.1 ERP系统进销存源码仓库管理

介绍 点可云进销存系统&#xff0c;基于thinkphplayui开发。 功能包含&#xff1a;采购、销售、零售、多仓库管理、财务管理等功能 和超详细的报表功能&#xff08;采购报表、销售报表、零售报表、仓库报表、资金报表等&#xff09; 软件架构 thinkphplayui 功能概览 购货 -购…

LeetCode(力扣)236. 二叉树的最近公共祖先Python

LeetCode236. 二叉树的最近公共祖先 题目链接代码 题目链接 https://leetcode.cn/problems/lowest-common-ancestor-of-a-binary-tree/ 代码 # Definition for a binary tree node. # class TreeNode: # def __init__(self, x): # self.val x # self.…

数据结构(Java实现)-排序

排序的概念 排序&#xff1a;所谓排序&#xff0c;就是使一串记录&#xff0c;按照其中的某个或某些关键字的大小&#xff0c;递增或递减的排列起来的操稳定性&#xff1a;假定在待排序的记录序列中&#xff0c;存在多个具有相同的关键字的记录&#xff0c;若经过排序&#xff…

4、DVWA——文件包含

文章目录 一、文件包含概述二、low2.1 源码分析2.2 通关分析 三、medium3.1 源码分析3.2 通关思路 四、high4.1 源码分析4.2 通关思路 五、impossible 一、文件包含概述 文件包含是指当服务器开启allow_url_include选项时&#xff0c;就可以通过php的某些特性函数&#xff08;i…

Spring Cloud--从零开始搭建微服务基础环境【三】

&#x1f600;前言 本篇博文是关于Spring Cloud–从零开始搭建微服务基础环境【三】&#xff0c;希望你能够喜欢 &#x1f3e0;个人主页&#xff1a;晨犀主页 &#x1f9d1;个人简介&#xff1a;大家好&#xff0c;我是晨犀&#xff0c;希望我的文章可以帮助到大家&#xff0c;…

数据结构(Java实现)-Map和Set

搜索树 概念 二叉搜索树又称二叉排序树&#xff0c;它或者是一棵空树&#xff0c;或者是具有以下性质的二叉树: 若它的左子树不为空&#xff0c;则左子树上所有节点的值都小于根节点的值 若它的右子树不为空&#xff0c;则右子树上所有节点的值都大于根节点的值 它的左右子树也…

【learnopengl】Assimp构建与编译

文章目录 【learnopengl】Assimp构建与编译1 前言2 Assimp构建与编译2.1 下载源码2.2 CMake构建2.3 VS2022编译 3 在VS中配置Assimp库4 验证 【learnopengl】Assimp构建与编译 1 前言 最近在跟着LearnOpenGL这个网站学习OpenGL&#xff0c;这篇文章详细记录一下教程中关于Ass…

Mac 如何判断下载Mac with Intel Chip 还是 Mac with Apple Chip

如下图&#xff0c;当我们在 Mac系统 下载客户端时&#xff0c;有两种选择&#xff1a;Mac with Intel Chip 、 Mac with Apple Chip 如何判断要下载哪一种&#xff1f; 需要判断本机Mac是在Inter芯片还是Apple芯片上运行的。方法如下&#xff1a; 点击屏幕左上角Apple标志&a…

ARM编程模型-常用指令集

一、ARM指令集 ARM是RISC架构&#xff0c;所有的指令长度都是32位&#xff0c;并且大多数指令都在一个单周期内执行。主要特点&#xff1a;指令是条件执行的&#xff0c;内存访问使用Load/store架构。 二、Thumb 指令集 Thumb是一个16位的指令集&#xff0c;是ARM指令集的功能…

测试人:“躺平?不可能的“, 盘点测试人在职场的优势

之前有这么一个段子&#xff1a;有人喜欢创造世界&#xff0c;他们做了程序员&#xff1b;有人喜欢拯救世界&#xff0c;他们做了测试员&#xff01;近几年&#xff0c;测试工程师在企业究竟是怎么样的发展&#xff1f;随着企业对于用户体验的满意度越来越重视&#xff0c;更加…

vue的第3篇 第一个vue程序

一 vue的mvvm实践者 1.1 介绍 Model&#xff1a;模型层&#xff0c; 在这里表示JavaScript对象 View&#xff1a;视图层&#xff0c; 在这里表示DOM(HTML操作的元素) ViewModel&#xff1a;连接视图和数据的中间件&#xff0c; Vue.js就是MVVM中的View Model层的实现者 在M…