Kowshik chilamkurthy
一、说明
很多时候,数据科学家和机器学习从业者并不欣赏不同损失指标之间的数学和直观关系,如负对数似然、交叉熵、最大似然估计、Kullback-Leibler (KL) 散度,以及最重要的均方误差。如果我说KL-散度和均方误差在数学上是相同的,你不会感到惊讶吗?
作为一名经验丰富的数据科学家,我对这些数学关系在AI / ML课程和教科书中没有得到应有的重视这一事实感到困惑。在这篇博客中,我的目标是在这些不同的损失之间建立坚实的数学和直观关系,这些损失用于分类、回归、GANS等不同问题。
该博客极大地帮助数据科学家加深对不同损失指标的理解,并帮助有抱负的数据科学家破解机器学习访谈。
二、所有损失函数之母:最大似然估计
最大似然法用于参数估计。通常在机器学习中,每个模型都包含自己的一组参数,例如,线性模型y = mx + c:权重/斜率m和截距c是最终定义模型的参数。
现在的挑战是在提供数据时找到模型参数。最大似然估计是一种确定参数值的方法。但是它是如何完成的呢?直观地找到参数值,使它们最大化预测接近观测值的可能性。
总搜索空间中设置的最大化似然函数的参数称为最大似然估计。
三、多语教育背后的数学
最大可能性的逻辑既直观又灵活。数学简单而优雅,随波逐流。
1:假设我们要构建一个参数为 θ 的模型。 其中 θ: [θ₀, θ₁, θ₂,θ₃ ...θn]^T,例如线性回归 (y = mx + c) 模型 θ: [m, c]。其中 Θ 称为参数空间。在线性回归情况下,Θ 是 [(m, c), (m₀, c₀)、(m₁, c₁)的不同组合的搜索空间......(mn, cn)]。
2:多语教育的目标是找到最好的。 最大似然估计的目标是确定最佳参数 θk ∈ Θ。例如,在线性回归中,θk: (mk, ck)。
3: 找到正确参数集 θk 的方法是使用似然函数。如果仔细理解,这个概念很简单。让我们再次假设我们的线性(y = mx + c)模型,对于给定的数据点(xp,yp)和参数θk:(mk,ck)。
4:PDF:fp(yp, θk) 告诉模型预测的概率 yp,如果实际标签是 yp。很简单,你掷硬币,看到正面pdf:f(Head)告诉我们你看到正面的可能性有多大。
5: fp(yp, θk) 针对一个数据点 p,但我们需要为所有数据点 (y₀, y₁, y₂,y₃ ...YN)。我们如何做到这一点,我们可以使用联合概率分布来考虑所有数据点。
注意:
对于自变量和同分布随机变量,联合概率分布 fn(y; θ) 将是单变量密度函数 fp(yp, θk) 的乘积
6:对于给定的参数 θ k,联合密度函数 f(y, θk) 告诉我看到 y 分布等于观察到的 y 分布的可能性有多大。现在反过来,我们要找到 θk,以便我看到最接近观察到的 y 分布的 y 分布。这种反向JDF称为似然函数。
7:因此,我们搜索所有参数空间θ∈Θ,使似然函数最大化的特定值θk称为最大似然估计(MLE)。
8:在实践中,使用似然函数的自然对数通常很方便,称为对数似然:
最大化对数似然与最大化可能性相同。由于“log”是一个递增函数,因此最大化对数似然函数的 Θ 值也将最大化似然函数。
四、损失:负对数可能性(预告片)
在结束博客之前,让我先提一个预告片:MLE的一个非常明显的损失是对数似然为负。它是多类分类中使用的损失函数。损失通常最小化,因此我们在上述等式中使用负号,因此称为负对数似然损失。我们最小化负对数似然损失,从而实现最大似然估计。
五、结论
几乎所有常见的损失函数都可以从最大似然估计中导出。在我的下一篇文章中,我们将了解如何从数学上推导它们,并欣赏回归、分类和 GAN 中使用的这些看似不同的损失函数之间的相似之处。