1.softmax 函数的得出的结果是样本被预测到每个类别的概率,所有类别的概率相加总和等于1。使用 softmax 进行数据归一化,将数字转换成概率。
2.熵,不确定性,越低越好
3.KL 散度=交叉熵-信息熵
预测越准,交叉熵越小,交叉熵只跟真实标签的预测概率值有关。
有真实分布,所以用交叉熵。如果没有真实分布用 KL 散度。
4.损失函数是什么?如何定义合理的损失函数?
单个样本的预测值与真实值的差称为损失。用于计算损失的函数称为损失函数。损失函数是非负实值函数。
合理定义损失函数需要考虑以下几个方面
1️⃣任务类型:分类任务使用交叉熵损失函数,回归任务使用均方误差MSE损失函数
2️⃣数据分布:对于类别不平衡的问题要使用加权交叉熵损失函数
3️⃣模型特点:需要保证稀疏性的模型,使用L1正则化
4️⃣应用需求:对于异常值敏感的任务,使用 Huber Loss 等鲁棒损失函数
5️⃣需要注意的:反复测试