应用广义线性模型二|二响应广义线性模型

系列文章目录

文章目录

  • 系列文章目录
  • 一、二响应模型的不同表达方式和响应函数
  • 二、二响应模型的性质
    • (一)二响应变量的条件数学期望与方差
    • (二)二响应模型参数的极大似然估计
    • (三)二响应模型的优势
  • 三、二响应模型参数的假设检验
    • (一)对数似然比检验方法
    • (二)Wald统计量
    • (三)得分统计量
    • (四)模型参数分量是否为0的检验
    • (五)四种检验统计量的特点与应用
  • 四、二响应模型的拟合优度统计量
    • (一)样本观测数据的表示方法
    • (二)皮尔逊统计量
    • (三)偏差统计量
  • 五、全模型与子模型
  • 六、响应变量的预报
    • (一)阈值
    • (二)ROC曲线


2响应模型中响应变量的哑变量编码的维数是1,是值域为 { 0 , 1 } \{0,1\} {0,1}的变量。将这个哑变量编码记为 Y Y Y,则k响应模型具体为:
E ( Y ∣ X ) = h ( Z β ) E(Y|X)=h(Z\beta) E(YX)=h()
称之为二响应广义线性模型,简称二响应模型,进一步称 Z = Z ( X ) Z=Z(X) Z=Z(X)为二响应模型的设计向量, β \beta β为模型参数。

设计向量中,人们通常称1为常数项,称解释变量的分量为主效应量,将解释变量的k个分量的乘积成为这k个分量的k阶交互作用项。
设计向量: Z ( x ) = ( 1 , x 1 , x 2 , x 3 , x 1 x 2 , x 1 x 3 , x 2 x 3 ) Z(x)=(1,x_1,x_2,x_3,x_1x_2,x_1x_3,x_2x_3) Z(x)=(1,x1,x2,x3,x1x2,x1x3,x2x3)中包含了所有的主效应项和所有的2阶交互作用项。

一、二响应模型的不同表达方式和响应函数

响应函数 h h h
为了确保条件概率位于0和1之间,响应函数的值域为 [ 0 , 1 ] [0,1] [0,1]。为了研究方便,响应函数总是被要求为严格单增连续分布函数,在这样的假设下,响应函数 h h h是可逆函数,称: g = h − 1 g=h^{-1} g=h1为二响应模型的连接函数。

二响应模型 E ( Y ∣ X ) = h ( Z β ) E(Y|X)=h(Z\beta) E(YX)=h()的不同表达方式:

  • 因为 E ( Y ∣ X ) = P ( Y = 1 ∣ X ) E(Y|X)=P(Y=1|X) E(YX)=P(Y=1∣X),所以二响应模型可以表示为以下两种形式:
    • P ( Y = 1 ∣ X ) = h ( Z β ) P(Y=1|X)=h(Z\beta) P(Y=1∣X)=h()
    • Y ∼ B ( 1 , h ( Z β ) ) Y\sim B(1,h(Z\beta)) YB(1,h())
  • 用连接函数表示:
    • g ( E ( Y ∣ X ) ) = Z β g(E(Y|X))=Z\beta g(E(YX))=

二响应逻辑回归模型:(逻辑回归模型或logit模型)
当响应函数和连接函数分别是逆逻辑函数和逻辑函数时,即:
i l o g i t ( x ) ≜ e x p ( x ) 1 + e x p ( x ) 和  l o g i t ( x ) ≜ l o g ( x 1 − x ) ilogit(x) \triangleq \frac{exp(x)}{1+exp(x)} 和\ logit(x)\triangleq log(\frac{x}{1-x}) ilogit(x)1+exp(x)exp(x) logit(x)log(1xx)
二响应模型就成为了二响应逻辑回归模型:(简称为逻辑回归模型或logit模型)
E ( Y ∣ X ) = e x p ( Z β ) 1 + e x p ( Z β ) E(Y|X)=\frac{exp(Z\beta)}{1+exp(Z\beta)} E(YX)=1+exp()exp()

正态分布概率模型或proit模型:
当响应函数和连接函数分别是:
h ( x ) = Φ ( x ) 和  g ( t ) = Φ − 1 ( t ) h(x)=\Phi(x)和\ g(t)=\Phi^{-1}(t) h(x)=Φ(x) g(t)=Φ1(t)
模型就成为了正态分布概率模型或proit模型:
E ( Y ∣ X ) = Φ ( Z β ) E(Y|X)=\Phi(Z\beta) E(YX)=Φ()

极小值分布概率模型或chaglog模型:
当响应函数和连接函数分别是:
h ( x ) = 1 − exp ⁡ ( − exp ⁡ ( x ) ) 和  g ( t ) = log ⁡ ( − log ⁡ ( 1 − t ) ) h(x)=1-\exp(-\exp(x))和\ g(t)=\log(-\log(1-t)) h(x)=1exp(exp(x)) g(t)=log(log(1t))
模型就成为了极小值分布概率模型或chaglog模型:
E ( Y ∣ X ) = 1 − exp ⁡ ( − e x p ( Z β ) ) E(Y|X)=1-\exp(-exp(Z\beta)) E(YX)=1exp(exp())

这三个响应函数曲线的差异十分明显:
在这里插入图片描述但是这三个响应函数可以通过平移和刻度变换相互逼近。因此,当设计向量含有常数项时,逻辑回归模型、正态分布模型和极小值分布模型拟合样本观测数据的效果差不多。
在这里插入图片描述

二、二响应模型的性质

(一)二响应变量的条件数学期望与方差

已知二响应模型可以表示为: Y ∼ B ( 1 , h ( Z β ) ) Y\sim B(1,h(Z\beta)) YB(1,h()),因此根据二项分布的性质可以得到:
E ( Y ∣ X ) = h ( Z β ) ,   V a r ( Y ∣ X ) = h ( Z β ) ( 1 − h ( Z β ) ) E(Y|X)=h(Z\beta),\ Var(Y|X)=h(Z\beta)(1-h(Z\beta)) E(YX)=h(), Var(YX)=h()(1h())

(二)二响应模型参数的极大似然估计

对于变量 ( Y , X ) (Y,X) (Y,X)的独立观测样本 ( Y i , X i ) (Y_i,X_i) (Yi,Xi) 1 ≤ i ≤ n 1\leq i \leq n 1in,每个样本点都满足二响应模型,即:
P ( Y i = 1 ∣ X i ) = h ( Z i β ) ,   P ( Y i = 0 ∣ X i ) = 1 − h ( Z i β ) P(Y_i=1|X_i)=h(Z_i\beta),\ P(Y_i=0|X_i)=1-h(Z_i\beta) P(Yi=1∣Xi)=h(Ziβ), P(Yi=0∣Xi)=1h(Ziβ)
进而可以得到第 i i i项观测的个体似然函数:
L i ( β ) ≜ h ( Z i β ) Y i ( 1 − h ( Z i β ) ) 1 − Y i L_i(\beta)\triangleq h(Z_i\beta)^{Y_i}(1-h(Z_i\beta))^{1-Y_i} Li(β)h(Ziβ)Yi(1h(Ziβ))1Yi
i i i项观测的对数似然函数:
l i ( β ) ≜ Y i log ⁡ h ( Z i β ) + ( 1 − Y i ) log ⁡ ( 1 − h ( Z i β ) ) l_i(\beta)\triangleq Y_i\log h(Z_i\beta)+(1-Y_i)\log (1-h(Z_i\beta)) li(β)Yilogh(Ziβ)+(1Yi)log(1h(Ziβ))
进而得到参数 β \beta β的对数似然函数:
l ( β ) ≜ ∑ i = 1 n ( Y i log ⁡ h ( Z i β ) + ( 1 − Y i ) log ⁡ ( 1 − h ( Z i β ) ) ) l(\beta)\triangleq \sum_{i=1}^n(Y_i\log h(Z_i\beta)+(1-Y_i)\log (1-h(Z_i\beta))) l(β)i=1n(Yilogh(Ziβ)+(1Yi)log(1h(Ziβ)))
模型参数的似然估计即为:
β ^ = arg max ⁡ l ( β ) \hat{\beta}=\argmax l(\beta) β^=argmaxl(β)

显然,对数似然函数由样本所决定,因此它的最大值点也完全由样本所决定,即似然估计 β ^ \hat{\beta} β^是一个统计量。

(三)二响应模型的优势

优势(Odds):一个事件发生的概率与其不发生的概率的比值。
二响应模型中的优势与解释变量的取值有关,他在x点的值为:
O ( x ) ≜ P ( Y = 1 ∣ X = x ) P ( Y = 0 ∣ X = x ) = P ( Y = 1 ∣ X = x ) 1 − P ( Y = 1 ∣ X = x ) O(x)\triangleq \frac{P(Y=1|X=x)}{P(Y=0|X=x)}=\frac{P(Y=1|X=x)}{1-P(Y=1|X=x)} O(x)P(Y=0∣X=x)P(Y=1∣X=x)=1P(Y=1∣X=x)P(Y=1∣X=x)
因此二响应模型的优势为:
O ( x ) ≜ h ( z β ) 1 − h ( z β ) O(x)\triangleq \frac{h(z\beta)}{1-h(z\beta)} O(x)1h(zβ)h(zβ)

对于逻辑回归型来说,优势为:
O ( x ) ≜ P ( Y = 1 ∣ X = x ) P ( Y = 0 ∣ X = x ) = e x p ( z β ) O(x)\triangleq \frac{P(Y=1|X=x)}{P(Y=0|X=x)}=exp(z\beta) O(x)P(Y=0∣X=x)P(Y=1∣X=x)=exp(zβ)
因此解释变量 x ( 1 ) x^{(1)} x(1) x ( 2 ) x^{(2)} x(2)的优势比为:
O ( x ( 1 ) ) O ( x ( 2 ) ) = e x p ( ( z ( 1 ) − z ( 2 ) ) β ) \frac{O(x^{(1)})}{O(x^{(2)})}=exp((z^{(1)}-z^{(2)})\beta) O(x(2))O(x(1))=exp((z(1)z(2))β)
因此在逻辑回归模型中, e x p ( ( z ( 1 ) − z ( 2 ) ) β ) exp((z^{(1)}-z^{(2)})\beta) exp((z(1)z(2))β) x ( 1 ) x^{(1)} x(1) x ( 2 ) x^{(2)} x(2)的的优势比,或等价地, x ( 1 ) x^{(1)} x(1)的优势是 x ( 2 ) x^{(2)} x(2)优势的 e x p ( ( z ( 1 ) − z ( 2 ) ) β ) exp((z^{(1)}-z^{(2)})\beta) exp((z(1)z(2))β)倍。其他二响应模型中, x ( 1 ) x^{(1)} x(1) x ( 2 ) x^{(2)} x(2)的优势比的计算更为复杂,这是人们喜欢用逻辑回归模型拟合二响应变量样本观测数据的一个原因

三、二响应模型参数的假设检验

二响应模型中模型参数的假设检验问题: H 0 : C β = ξ H_0:C\beta=\xi H0:=ξ

  • C C C是已知的 s × t s\times t s×t行满秩矩阵,称为限制矩阵
  • β = ( β 1 , . . . , β t ) T \beta=(\beta_1,...,\beta_t)^T β=(β1,...,βt)T是模型参数

(一)对数似然比检验方法

对数似然比统计量与原假设之间的关系:

  • 模型参数 β \beta β的限制似然估计量: β ~ = arg max ⁡ β : C β = ξ l ( β ) \tilde{\beta}=\argmax_{\beta:C\beta=\xi} l(\beta) β~=argmaxβ:=ξl(β)
  • 对数似然比统计量: λ ( Y , X ) = − 2 ( l ( β ~ − ( β ^ ) ) \lambda(Y,X)=-2(l(\tilde{\beta}-(\hat{\beta})) λ(Y,X)=2(l(β~(β^))
    • β ^ \hat{\beta} β^是极大似然估计量
    • ( Y , X ) (Y,X) (Y,X)为样本

λ ( Y , X ) = − 2 log ⁡ ( L ( β ~ ) L ( β ^ ) ) = 2 log ⁡ ( L ( β ^ ) L ( β ~ ) ) \lambda(Y,X)=-2\log(\frac{L(\tilde{\beta})}{L(\hat{\beta})})=2\log(\frac{L(\hat{\beta})}{L(\tilde{\beta})}) λ(Y,X)=2log(L(β^)L(β~))=2log(L(β~)L(β^))
显然满足限制条件 H 0 H_0 H0的似然函数局部最大值 β ~ \tilde{\beta} β~应该小于全局最大值 β ^ \hat{\beta} β^,全局最大值越接近限制最大值,就越有利于限制条件 H 0 H_0 H0的成立。即 λ ( X , Y ) \lambda(X,Y) λ(X,Y)越大,越不利于原假设。

检验方法:
H 0 H_0 H0成立时, λ ( X , Y ) ∼ a χ 2 ( r ) \lambda(X,Y)\overset{\text{a}}{\sim} \chi^2(r) λ(X,Y)aχ2(r),其中 r = r a n k ( C ) r=rank(C) r=rank(C)。进而可以通过对数似然比统计量的极限分布来近似计算p值:
p = P ( ξ > λ ( y , x ) ) p=P(\xi>\lambda(y,x)) p=P(ξ>λ(y,x))

  • 如果p小于 α \alpha α,则拒绝原假设,这种拒绝犯错误的概率不会超过 α \alpha α
  • 否则就接受原假设,即没有发现不利于 H 0 H_0 H0的证据

(二)Wald统计量

Wald统计量为 C β ^ C\hat{\beta} Cβ^ C β = ξ C\beta=\xi =ξ之间距离的加权平均:
W ( Y , X ) = ( C β ^ − ξ ) T ( C ( F ( β ^ ) ) − 1 C T ) − 1 ( C β ^ − ξ ) W(Y,X)=(C\hat{\beta}-\xi)^T(C(F(\hat{\beta}))^{-1}C^T)^{-1}(C\hat{\beta}-\xi) W(Y,X)=(Cβ^ξ)T(C(F(β^))1CT)1(Cβ^ξ)

  • β ^ \hat{\beta} β^是极大似然估计量
  • F − 1 ( β ^ ) F^{-1}(\hat{\beta}) F1(β^)为Fisher信息矩阵的逆矩阵
  • ( Y , X ) (Y,X) (Y,X)为样本

当原假设成立时,Wald统计:
W ( Y , X ) = ( β ^ − β ) C T ( C ( F ( β ^ ) ) − 1 C T ) − 1 C ( β ^ − β ) W(Y,X)=(\hat{\beta}-\beta)C^T(C(F(\hat{\beta}))^{-1}C^T)^{-1}C(\hat{\beta}-\beta) W(Y,X)=(β^β)CT(C(F(β^))1CT)1C(β^β)
是似然估计与真实参数 β \beta β的距离,这个距离越大越不利于原假设。

检验方法:
H 0 H_0 H0成立时, W ( Y , X ) ∼ a χ 2 ( r ) W(Y,X)\overset{\text{a}}{\sim} \chi^2(r) W(Y,X)aχ2(r),其中 r = r a n k ( C ) r=rank(C) r=rank(C)。进而可以通过对数似然比统计量的极限分布来近似计算p值:
p = P ( ξ > W ( y , x ) ) p=P(\xi>W(y,x)) p=P(ξ>W(y,x))

  • 如果p小于 α \alpha α,则拒绝原假设,这种拒绝犯错误的概率不会超过 α \alpha α
  • 否则就接受原假设,即没有发现不利于 H 0 H_0 H0的证据

(三)得分统计量

得分统计量:
U ( Y , X ) = s ( β ~ ) F − 1 ( β ~ ) ( s ( β ~ ) ) T U(Y,X)=s(\tilde{\beta})F^{-1}(\tilde{\beta})(s(\tilde{\beta}))^T U(Y,X)=s(β~)F1(β~)(s(β~))T

  • s s s为得分函数
  • β ~ \tilde{\beta} β~为限制极大似然估计
  • F − 1 ( β ~ ) F^{-1}(\tilde{\beta}) F1(β~)为Fisher信息矩阵的逆矩阵在限制极大似然估计点处的值

一般情况下得分统计量越小, s ( β ~ ) s(\tilde{\beta}) s(β~)与0越接近,导致 β ~ \tilde{\beta} β~与似然方程的解 β ^ \hat{\beta} β^越接近,从而 H 0 H_0 H0成立的可能性越大。
检验方法:
H 0 H_0 H0成立时, U ( Y , X ) ∼ a χ 2 ( r ) U(Y,X)\overset{\text{a}}{\sim} \chi^2(r) U(Y,X)aχ2(r),其中 r = r a n k ( C ) r=rank(C) r=rank(C)。进而可以通过对数似然比统计量的极限分布来近似计算p值:
p = P ( ξ > W ( y , x ) ) p=P(\xi>W(y,x)) p=P(ξ>W(y,x))

  • 如果p小于 α \alpha α,则拒绝原假设,这种拒绝犯错误的概率不会超过 α \alpha α
  • 否则就接受原假设,即没有发现不利于 H 0 H_0 H0的证据

(四)模型参数分量是否为0的检验

实际应用时会经常关心模型参数的第 i i i分量 β i \beta_i βi是否为0,如果为0,就说明响应变量与设计向量的第 i i i个分量没有关系,否则响应变量就与设计向量的第i个分量有关系。
H 0 : β i = 0 H_0:\beta_i=0 H0:βi=0
这个假设检验问题可以使用似然比统计、Wald统计量或得分统计量来简答,但是也有更简单的统计量:
T i ( X , Y ) = β ^ i a i i T_i(X,Y)=\frac{\hat{\beta}_i}{\sqrt{a_{ii}}} Ti(X,Y)=aii β^i
其中, a i i a_{ii} aii F ( β ^ ) ) − 1 F(\hat{\beta}))^{-1} F(β^))1的对角线上的第i个元素。并且在一般情况下, ∣ T i ( X , Y ) ∣ |T_i(X,Y)| Ti(X,Y)越大,越不利于原假设。

检验方法:
H 0 H_0 H0成立时,即 β i = 0 \beta_i=0 βi=0时, T i = β ^ i a i i ∼ a N ( 0 , 1 ) T_i=\frac{\hat{\beta}_i}{\sqrt{a_{ii}}}\overset{\text{a}}{\sim} N(0,1) Ti=aii β^iaN(0,1),其中 r = r a n k ( C ) r=rank(C) r=rank(C)。进而可以通过对数似然比统计量的极限分布来近似计算p值:
p = P ( ∣ ξ ∣ > ∣ T i ( x , y ) ∣ ) p=P(|\xi|>|T_i(x,y)|) p=P(ξ>Ti(x,y))

  • 如果p小于 α \alpha α,则拒绝原假设,即 β i ≠ 0 \beta_i\neq 0 βi=0,这种拒绝犯错误的概率不会超过 α \alpha α
  • 否则就接受原假设 β i = 0 \beta_i=0 βi=0,即没有发现不利于 H 0 H_0 H0的证据

(五)四种检验统计量的特点与应用

  • 对数似然比统计量同时依赖于似然估计量和限制似然估计量,其值的计算量大
  • Wald统计量仅依赖于无限制似然估计量 β ^ \hat{\beta} β^,其值的计算量小,适用于前推式变量筛选
  • 得分统计量仅依赖于限制似然估计量 β ~ \tilde{\beta} β~,计算量较小,常用于后推式变量筛选
  • 统计量 T i T_i Ti用于解答假设检验问题

四、二响应模型的拟合优度统计量

(一)样本观测数据的表示方法

  • 不分组样本观测数据(不分组数据): ( Y , X ) (Y,X) (Y,X)的原始观测数据 ( y i , x i ) , i = 1 , . . . , n (y_i,x_i),i=1,...,n (yi,xi),i=1,...,n
  • 分组相应均值数据(分组数据):当观测数据的解释变量中仅有 g g g个不同取值 v 1 , . . . , v g v_1,...,v_g v1,...,vg时,可用将样本观测数据表示为 ( n k , y k ˉ , v k ) , k = 1 , . . . , g (n_k,\bar{y_k},v_k),k=1,...,g (nk,ykˉ,vk),k=1,...,g
    • n k n_k nk为数据中 v k v_k vk的频数
    • y k ˉ \bar{y_k} ykˉ为数据中解释变量为 v i v_i vi的响应变量的算术平均值

(二)皮尔逊统计量

皮尔逊统计量是衡量二响应广义线性模型拟合效果的指标之一:
χ 2 = ∑ k = 1 g n k ( Y k ˉ − h ( Z ( v k ) β ^ ) ) 2 h ( Z ( v k ) β ^ ) ( 1 − h ( Z ( v k ) β ^ ) ) ∼ a χ 2 ( g − p ) \chi^2=\sum_{k=1}^g\frac{n_k(\bar{Y_k}-h(Z(v_k)\hat{\beta}))^2}{h(Z(v_k)\hat{\beta})(1-h(Z(v_k)\hat{\beta}))}\overset{\text{a}}{\sim} \chi^2(g-p) χ2=k=1gh(Z(vk)β^)(1h(Z(vk)β^))nk(Ykˉh(Z(vk)β^))2aχ2(gp)
其中:
Y k ˉ = 1 n k ∑ i = 1 n 1 { v k } ( X i ) Y i , 1 ≤ k ≤ g \bar{Y_k}=\frac{1}{n_k}\sum_{i=1}^n1_{\{v_k\}}(X_i)Y_i,1\leq k\leq g Ykˉ=nk1i=1n1{vk}(Xi)Yi,1kg
在皮尔逊统计量中, Y k ˉ − h ( Z ( v k ) β ^ ) \bar{Y_k}-h(Z(v_k)\hat{\beta}) Ykˉh(Z(vk)β^)是频率与概率估计值之差, D ^ ( Y k ˉ ) = h ( Z ( v k ) β ^ ) ( 1 − h ( Z ( v k ) β ^ ) ) n k \hat{D}(\bar{Y_k})=\frac{h(Z(v_k)\hat{\beta})(1-h(Z(v_k)\hat{\beta}))}{n_k} D^(Ykˉ)=nkh(Z(vk)β^)(1h(Z(vk)β^)) D ( Y k ˉ ) D(\bar{Y_k}) D(Ykˉ)的估计值,显然: ( Y ˉ k − h ( Z ( v k ) β ^ ) ) 2 D ^ ( Y k ˉ ) \frac{(\bar{Y}_k-h(Z(v_k)\hat{\beta}))^2}{\hat{D}(\bar{Y_k})} D^(Ykˉ)(Yˉkh(Z(vk)β^))2越小,说明用 h ( Z ( v k ) β ^ ) h(Z(v_k)\hat{\beta}) h(Z(vk)β^)估计 P ( Y ∣ X = v k ) P(Y|X=v_k) P(YX=vk)的效果越好。因此可以用其和 χ 2 \chi^2 χ2来衡量广义线性模型的拟合效果:皮尔逊统计量 χ 2 \chi^2 χ2越小,拟合的效果越好。

对于分组数据,皮尔逊计量要求各个 n k n_k nk都很大的情况效果才会好,当 n i n_i ni很小,甚至等于1的情况,皮尔逊统计量比较模型的效果会很差。

(三)偏差统计量

当解释变量可能取值为 v 1 , . . . , v g v_1,...,v_g v1,...,vg时, 1 = ∑ k = 1 g 1 { v k } ( X i ) 1=\sum_{k=1}^g1_{\{v_k\}}(X_i) 1=k=1g1{vk}(Xi),因此对数似然函数可以表达为:
l ( β ) = ∑ i = 1 n ∑ k = 1 g 1 { v k } ( X i ) ( Y i log ⁡ h ( Z ( X i ) β ) + ( 1 − Y i ) log ⁡ ( 1 − h ( Z ( X i ) β ) ) ) = ∑ i = 1 n ∑ k = 1 g 1 { v k } ( X i ) ( Y i log ⁡ h ( Z ( v k ) β ) + ( 1 − Y i ) log ⁡ ( 1 − h ( Z ( v k ) β ) ) ) \begin{aligned} l(\beta)=&\sum_{i=1}^n\sum_{k=1}^g1_{\{v_k\}}(X_i)(Y_i\log h(Z(X_i)\beta)+(1-Y_i)\log (1-h(Z(X_i)\beta)))\\ =&\sum_{i=1}^n\sum_{k=1}^g1_{\{v_k\}}(X_i)(Y_i\log h(Z(v_k)\beta)+(1-Y_i)\log (1-h(Z(v_k)\beta)))\\ \end{aligned} l(β)==i=1nk=1g1{vk}(Xi)(Yilogh(Z(Xi)β)+(1Yi)log(1h(Z(Xi)β)))i=1nk=1g1{vk}(Xi)(Yilogh(Z(vk)β)+(1Yi)log(1h(Z(vk)β)))

n k = ∑ i = 1 n 1 { v k } ( X i ) ,   Y k ˉ = 1 n k ∑ i = 1 n 1 { v k } ( X i ) Y i n_k=\sum_{i=1}^n1_{\{v_k\}}(X_i),\ \bar{Y_k}=\frac{1}{n_k}\sum_{i=1}^n1_{\{v_k\}}(X_i)Y_i nk=i=1n1{vk}(Xi), Ykˉ=nk1i=1n1{vk}(Xi)Yi,则可以用分组样本将似然函数表达为:
l ( β ) = ∑ k = 1 g n k ( Y k ˉ log ⁡ h ( Z ( v k ) β ) + ( 1 − Y k ˉ ) log ⁡ ( 1 − h ( Z ( v k ) β ) ) ) l(\beta)=\sum_{k=1}^gn_k(\bar{Y_k}\log h(Z(v_k)\beta)+(1-\bar{Y_k})\log (1-h(Z(v_k)\beta))) l(β)=k=1gnk(Ykˉlogh(Z(vk)β)+(1Ykˉ)log(1h(Z(vk)β)))
记: f i ( u ) = ( Y k ˉ log ⁡ u + ( 1 − Y k ˉ ) log ⁡ ( 1 − u ) ) , u ∈ ( 0 , 1 ) , 1 ≤ i ≤ g f_i(u)=(\bar{Y_k}\log u+(1-\bar{Y_k})\log (1-u)),u\in(0,1),1\leq i\leq g fi(u)=(Ykˉlogu+(1Ykˉ)log(1u)),u(0,1)1ig,则有:
d f i ( u ) d u = Y ˉ i u + 1 − Y ˉ i 1 − u = Y ˉ i − u u ( 1 − u ) \frac{df_i(u)}{du}=\frac{\bar{Y}_i}{u}+\frac{1-\bar{Y}_i}{1-u}=\frac{\bar{Y}_i-u}{u(1-u)} dudfi(u)=uYˉi+1u1Yˉi=u(1u)Yˉiu
所以 f i ( u ) ≤ f i ( Y ˉ i ) , u ∈ ( 0 , 1 ) f_i(u)\leq f_i(\bar{Y}_i),u\in(0,1) fi(u)fi(Yˉi),u(0,1)

由于 h ( Z ( v k ) β ^ ) h(Z(v_k)\hat{\beta}) h(Z(vk)β^) Y k ˉ \bar{Y_k} Ykˉ都是概率 P ( Y = 1 ∣ X = v i ) P(Y=1|X=v_i) P(Y=1∣X=vi)的估计,并且:
lim ⁡ n i → ∞ Y ˉ i = P ( Y = 1 ∣ X = v i ) \lim_{n_i\rightarrow ∞}\bar{Y}_i=P(Y=1|X=v_i) nilimYˉi=P(Y=1∣X=vi)
因此当 n i n_i ni充分大时, f i ( Y i ˉ ) − f i ( h ( Z ( v i ) β ^ ) f_i(\bar{Y_i})-f_i(h(Z(v_i)\hat{\beta}) fi(Yiˉ)fi(h(Z(vi)β^)越小,用 Z ( v i ) β ^ Z(v_i)\hat{\beta} Z(vi)β^估计 P ( Y = 1 ∣ X = v i ) P(Y=1|X=v_i) P(Y=1∣X=vi)的效果越好。因此人们常用偏差统计量:
D ( X , Y ) ≜ − 2 ∑ i = 1 g n i ( f i ( h ( Z ( v i ) β ^ ) ) − f i ( Y ˉ i ) ) D(X,Y)\triangleq-2\sum_{i=1}^gn_i(f_i(h(Z(v_i)\hat{\beta}))-f_i(\bar{Y}_i)) D(X,Y)2i=1gni(fi(h(Z(vi)β^))fi(Yˉi))
来衡量模型的拟合效果,偏差统计量的值越小,拟合效果也就越好。

五、全模型与子模型

设计向量中,人们通常称1为常数项,称解释变量的分量为主效应量,将解释变量的k个分量的乘积成为这k个分量的k阶交互作用项。
设计向量: Z ( x ) = ( 1 , x 1 , x 2 , x 3 , x 1 x 2 , x 1 x 3 , x 2 x 3 ) Z(x)=(1,x_1,x_2,x_3,x_1x_2,x_1x_3,x_2x_3) Z(x)=(1,x1,x2,x3,x1x2,x1x3,x2x3)中包含了所有的主效应项和所有的2阶交互作用项。

若设计向量 V ~ \tilde{V} V~是设计向量 V V V的子向量,则称 V V V所对应模型为 V ~ \tilde{V} V~所对应模型的全模型或父模型,称 V ~ \tilde{V} V~所对应模型为 V V V所对应模型的子模型。如二响应逻辑回归模型 l o g i t ( E ( Y ∣ X ) ) = ( 1 , x 3 , x 1 x 3 ) α logit(E(Y|X))=(1,x_3,x_1x_3)\alpha logit(E(YX))=(1,x3,x1x3)α是全模型 l o g i t ( E ( Y ∣ X ) ) = ( 1 , x 1 , x 2 , x 3 , x 1 x 2 , x 1 x 3 , x 2 x 3 ) β logit(E(Y|X))=(1,x_1,x_2,x_3,x_1x_2,x_1x_3,x_2x_3)\beta logit(E(YX))=(1,x1,x2,x3,x1x2,x1x3,x2x3)β的子模型。当全模型的模型参数一些分量为0时,全模型就变为子模型。

在选择使用全模型还是子模型拟合数据时,可以通过全模型参数的假设检验问题来进行探索:
H 0 : β 1 = β 2 = β 1 , 2 = β 2 , 3 = 0 H_0:\beta_1=\beta_2=\beta_{1,2}=\beta_{2,3}=0 H0:β1=β2=β1,2=β2,3=0

事实上,当模型参数估计的多个分量的p值都超过显著水平时,直接在设计向量中剔除这些分量所得的子模型的你和效果可能会很差。

变量选择问题:

  • AIC准则: A I C = 2 p − 2 l ( β ^ ) AIC=2p-2l(\hat{\beta}) AIC=2p2l(β^),在子模型中选择AIC值最小的模型拟合数据。对于全模型,人们常用逐步回归法选择最优子模型。
    • 令设计向量 Z = ( 1 , Z 1 , . . . , Z k ) Z=(1,Z_1,...,Z_k) Z=(1,Z1,...,Zk),计算模型 E ( Y ∣ X ) = h ( Z β ) E(Y|X)=h(Z\beta) E(YX)=h()的AIC的值 a n o n e a_{none} anone
    • 对于 1 ≤ i ≤ k 1\leq i\leq k 1ik,删除 Z Z Z的第 i + 1 i+1 i+1分量得子向量: Z ( i ) = ( 1 , Z 1 , . . . , Z i − 1 , Z i + 1 , Z k ) Z^{(i)}=(1,Z_1,...,Z_{i-1},Z_{i+1},Z_k) Z(i)=(1,Z1,...,Zi1,Zi+1,Zk),计算模型 E ( Y ∣ X ) = h ( Z ( i ) β ( i ) ) E(Y|X)=h(Z^{(i)}\beta^{(i)}) E(YX)=h(Z(i)β(i))的AIC的值 a i a_{i} ai
    • a n o n e ≤ m i n { a 1 , . . . a k } a_{none}\leq min\{a_1,...a_k\} anonemin{a1,...ak},结束运算;否则,寻找 a 1 , . . . a k a_1,...a_k a1,...ak中最小者 a m a_m am,令 k = k − 1 , Z = Z ( m ) k=k-1,Z=Z^{(m)} k=k1,Z=Z(m),跳转到第一步
  • 另外也可以通过假设检验来考察最优子模型与全模型间是否有差异。

一般来说,最优逻辑回归模型的选择思路可以是:从设计向量出发,利用逐步回归方法获取最优子模型,通过一个分类变量的哑变量编码拓展最优子模型的设计向量,用拓展设计向量替代,重复上述过程,得到最终选择模型。

六、响应变量的预报

依据均方误差准则,应该用条件期望预报随机变量的值,但是二响应线性回归模型的条件期望的值是小数,实际应用中希望得到的预报却应该为0或1,因此需要通过一些特殊方式来实现响应变量的预报。

(一)阈值

核心思想: 通过 Y ^ c = 1 { h ( Z ( x ) β ) > c } \hat{Y}_c=1_{\{h(Z(x)\beta)>c\}} Y^c=1{h(Z(x)β)>c}来预报响应变量,称c为阈值。

阈值的确定:

  • 根据极大似然的原理得到预报规则:如果 P ( Y = 1 ∣ X = x ) ≥ P ( Y = 1 ∣ X = x ) P(Y=1|X=x)\geq P(Y=1|X=x) P(Y=1∣X=x)P(Y=1∣X=x),就预报响应变量的值为1,否则预报为0,因此极大似然预报公式即为:
    Y ^ c = 1 { h ( Z ( x ) β ) > 0.5 } \hat{Y}_c=1_{\{h(Z(x)\beta)>0.5\}} Y^c=1{h(Z(x)β)>0.5}

Y ^ c \hat{Y}_c Y^c的预报效果:

  • 总体误报率: E ( ∣ Y ^ c − Y ∣ ) E(|\hat{Y}_c-Y|) E(Y^cY)的值越小,说明预报效果越好。
  • 样本预报率: f = 1 n ∑ i = 1 n ∣ Y i − Y ^ i ∣ f=\frac{1}{n}\sum_{i=1}^n|Y_i-\hat{Y}_i| f=n1i=1nYiY^i
  • 误报率与响应变量 Y 1 , . . . , Y n Y_1,...,Y_n Y1,...,Yn中1的比例有关,因此不宜用这一指标衡量预报效果。

(二)ROC曲线

二响应广义线性模型常常关心预报值1是否为误报,即真值1和0是否能够被正确预报出来。

  • TP:n次预报中真值为1预报值也为1的预报次数
  • FN:n次预报中真值为1预报值为0的预报次数
  • FP:n次预报中真值为0预报值为1的预报次数
  • TN:n次预报中真值为0预报值也为0的预报次数

T P R ≜ T P T P + F N ,   F P R ≜ F P F P + T N TPR\triangleq \frac{TP}{TP+FN},\ FPR\triangleq \frac{FP}{FP+TN} TPRTP+FNTP, FPRFP+TNFP

  • TPR是真值1被预报成功的频率,称为真正类率,我们希望它尽可能大
  • FPR是真值0被预报成1的频率,称为假正类率,我们希望它越小越好

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/691418.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

算法人生(21):从“React框架”看“情绪管理”

说起React框架,我们知道它是一种由Facebook开发和维护的开源JavaScript库,主要用于构建用户界面,特别是单页应用程序(SPA)。React框架围绕组件化,即把用户界面拆分为可复用的独立组件,每个组件负…

OpenCV 4.10 发布

OpenCV 4.10 JPEG 解码速度提升 77%,实验性支持 Wayland、Win ARM64 根据 “OpenCV 中国团队” 介绍,从 4.10 开始 OpenCV 对 JPEG 图像的读取和解码有了 77% 的速度提升,超过了 scikit-image、imageio、pillow。 4.10 版本的一些亮点&…

SpringBoot+Vue甘肃非物质文化网站(前后端分离)

技术栈 JavaSpringBootMavenMySQLMyBatisVueShiroElement-UI 系统角色对应功能 用户管理员 系统功能截图

Dockerfille解析

用于构建Docker镜像的文本,由一条条指令构成 Docker执行Dockerfile的流程 1. Docker从基础镜像执行一个容器 2. 执行一条指令并对容器进行修改 3. 执行类型Docker commit的命令添加一个新的镜像层 4. Docker再基于新的镜像执行一个新的容器 5. 执行Dockerfile中…

小阿轩yx-iptables 防火墙

小阿轩yx-iptables 防火墙 Linux 防火墙基础 体系主要工作在 网络层针对TCP/IP 数据包实施过滤和限制 属于典型的包过滤防火墙(或者称为网络层防火墙) 体系基于内核编码实现 好处 具有非常稳定的性能高效率 防火墙两个表示 netfilteriptables …

C语言 数组——数组的其他应用之筛法求素数

目录 数组的其他应用 求100以内的所有素数 筛法求100以内的所有素数 自顶向下、逐步求精设计算法 数组的其他应用 求100以内的所有素数 筛法求100以内的所有素数 自顶向下、逐步求精设计算法 step 1:设计总体算法  初始化数组a,使a[2]2, a[3]3,..…

10-指针进阶——char型,多级指针,void指针,const指针

10-指针进阶——char型,多级指针,void指针,const指针 文章目录 10-指针进阶——char型,多级指针,void指针,const指针一、char 型指针1.1 示例 二、多级指针2.1 示例 三、 指针的万能拆解方法3.1 示例 四、v…

CMakeLists如何多行注释

在使用Visual Studio编写CMakeLists的时候你可能会遇到需要多行注释的情况,可又不知道快捷键是什么。。。 其实你只需要敲个 #[[ 就行了,另外一般方括号VS会自动帮你补全,之后将需要注释的内容放在第二个方括号与第三个方括号之间就完成注释…

Nvidia Jetson/Orin/算能 +FPGA+AI大算力边缘计算盒子:潍柴雷沃智慧农业无人驾驶

潍柴雷沃智慧农业科技股份有限公司,是潍柴集团重要的战略业务单元,旗下收获机械、拖拉机等业务连续多年保持行业领先,是国内少数可以为现代农业提供全程机械化整体解决方案的品牌之一。潍柴集团完成对潍柴雷沃智慧农业战略重组后,…

翻译《The Old New Thing》- Why isn’t there a SendThreadMessage function?

Why isnt there a SendThreadMessage function? - The Old New Thing (microsoft.com)https://devblogs.microsoft.com/oldnewthing/20081223-00/?p19743 Raymond Chen 2008年12月23日 为什么没有 SendThreadMessage 函数? 简要 文章讨论了 Windows 中不存在 Sen…

全链路性能测试:Nginx 负载均衡的性能分析和调优

为什么性能测试很多同学觉得是一个比较难以自学上岸的测试领域,是因为真正做全链路的性能测试是比较难的。所谓的全链路就是在项目的整个链路上任何一环节都有可能存在性能测试瓶颈,我们都需要能够通过分析性能的监控指标找到对应的问题。 我们今天要讲的Nginx负载均衡就是…

Shell脚本学习_字符串变量

目录 1.Shell字符串变量:格式介绍 2.Shell字符串变量:拼接 3.Shell字符串变量:字符串截取 4.Shell索引数组变量:定义-获取-拼接-删除 1.Shell字符串变量:格式介绍 1、目标: 能够使用字符串的三种方式 …

【NI国产替代】500 MSPS 采样率,14 bit 分辨率数据采集盒子

• 双高速高精度数据采集通道 • 支持内外精准触发采样模式 • 丰富的总线控制接口 • 抗干扰能力强 高速采集盒子是一款双通道,具有 500 MSPS 采样率,14 bit 分辨率的高速高精度数据采集设备,其模拟输入带宽为 200 MHz,…

深入了解反射

newInstance 可访问性限制: newInstance()方法只能调用无参的公共构造函数。如果类没有无参公共构造函数,那么newInstance()方法将无法使用。 异常处理: newInstance()方法在创建对象时会抛出受检异常InstantiationException和IllegalAcces…

各品牌电视安装第三方软件失败的解决方法

在安装电视第三方软件时,您可能会遇到安装失败、解析错误或无法识别文件类型等问题。以下是一些常见问题的解决方案,小武给您整理了详细的步骤来帮助解决这些问题。 手机投屏或安装方法参考如下文章: 移动端投屏到大屏幕的操作详解 通过U盘…

SpringBoot图书管理系统【附:资料➕文档】

前言:我是源码分享交流Coding,专注JavaVue领域,专业提供程序设计开发、源码分享、 技术指导讲解、各类项目免费分享,定制和毕业设计服务! 免费获取方式--->>文章末尾处! 项目介绍048: 图…

2024年6月8日 每周新增游戏

中医百科中药: 中医百科中药是一款非常强大的中药知识科普软件,该应用提供500多味中草药的文献资料,强大的搜索功能可根据功效、特点和关键词来快速查找中药,而且每味中药的图片、功效、主治、炮制方法等百科知识,可以很好的帮助你…

计算机专业本科论文起稿咋写

举例基于SpringBoot的Java基础的旅游管理系统 摘要 随着旅游业的快速发展,传统的旅游管理方式已经难以满足现代企业的需求。为了提高旅游企业的管理水平和服务质量,本文设计并实现了一个基于SpringBoot框架的旅游管理系统。本文首先介绍了旅游管理系统的…

E: 仓库 “http://download...graphics:/darktable/xUbuntu_22.04 InRelease” 没有数字签名

问题 Ubuntu22.04装了darktable软件没装好,已经卸载了但是没卸载干净,终端使用 sudo apt update 出现的问题: 解决: sudo nano /etc/apt/sources.list.d/*darktable*.list找到了该软件的相关仓库条目:直接给他注释掉就行了。

springcloud第4季 springcloud-gateway网关filter案例场景

一 filter作用 1.1 filter搭建流程 1.1.1 网关配置 1.1.2 服务提供者 1.1.3 测试验证 1.启动consul 2.启动zipkin 3.启动应用微服务 4.进行访问: http://localhost:6666/pay/wg/filter 1.2 其他常见API RemoveRequestHeadersec-fetch-site # 删除请求…