1.梯度下降法(Batch Gradient Desent,BGD):
总体m个样本,损失函数:
计算损失函数梯度:
参数更新:
2.随机梯度下降法(Stochastic Gradient Desent,SGD):
对于一个样本的损失函数:
计算损失函数的梯度:
参数更新:
3.小批量梯度下降(Mini-batch Gradient Desent , MBGD)
个样本的损失函数
损失函数的梯度:
参数更新:
小结:BGD稳定,但是计算的慢;SGD不稳定,但是计算的快,MBGD综合了BGD和SGD