特性缩放的技术能使梯度下降运行得更快,让我们先来看看功能大小之间的关系,这就是该特性的数字和相关参数的大小,作为一个具体的例子,让我们用两个特征来预测房子的价格,X1代表一个房子的大小,X2代表两个卧室的数量,假设X1通常在300-2000平方英尺之间,X2从0-5个卧室不等,所以在这个例子中,X1具有相对较大的值范围,X2的值范围相对较小。让我们以2000平方英尺的房子为例,有5间卧室,这个训练样本的价格是50万或50万美元,你认为参数大小的合理值是多少,让我们看一组可能的参数。W1=50,W2=0.1,b=50,所以在这种情况下,以千美元为单位的估计价格是10万K+0.5K+50K,所以这显然与50万美元的实际价格相去甚远,这不是一个很好的参数选择集。对于W1和W2,现在让我们看看另一种可能性,一号和二号正好相反,1是0.1,2是50,在W1和W2的选择中b也是50,W1相对较小,W2相对较大,50比0.1大得多,所以这里的预测价格是0.1*2000K+50*5+50,所以这个版本的模型预测价格为50万美元是一个更合理的估计,而且正好和房子的真实价格是一样的,所以希望你能注意到,当一个特性的可能值范围很大时就像平方英尺的大小,一直到2000,一个好的模型更有可能学会选择一个相对较小的参数,像0.1这样的值,同样的,当特征的可能值很小时,比如卧室的数量,那么它的参数的合理值就会比较大,像50。
这与梯度下降有什么关系?,让我们来看看特征的散点图,其中平方英尺的大小是横轴X1,卧室的数量X2在垂直轴上,如果绘制训练数据,你会注意到横轴的比例尺要大得多,或者值的范围要大得多,与垂直轴相比,让我们看看成本函数在等高线图中的样子,你可能会看到一个等高线图,其中水平轴的范围要窄的多,在0和1 之间,而垂直轴的值要大得多,10-100之间,所以等高线形成椭圆形或椭圆形一边短一边长,这是因为对W的一个非常小的变化,会对预估价格产生非常大的影响,对成本J有很大影响,因为w倾向于乘以一个非常大的数,即平方英尺大小。相比之下,为了大大改变预测,W需要更大的变化,因此对W2的小变化,不要改变成本函数。
如果你要进行梯。度下降,如果你用你的训练数据,因为轮廓又高又瘦,梯度下降最终可能会在很长一段时间内来回反弹,在它最终到达全球极小值之前,在这种情况下,要做的一件有用的事情是缩放特性,这意味着队训练数据执行一些转换,所以X1保存现在可能从0-1,X2也可以从0-1,所以数据点现在看起来更像这样,你可能会注意到,底部的地块模型现在与顶部的大不相同,最关键的一点是,X1和X2 现在都取了彼此可比的值范围,如果你在上面定义的成本函数上运行梯度下降,使用这个转换数据重新缩放X1和X2,然后轮廓就会更象这样,更像圆圈,少了高瘦,梯度下降可以找到一条更直接的路径到达全局最小值。
所以回顾一下,当你有不同的功能,具有非常不同的值范围,它会导致梯度下降运行缓慢,但是重新缩放不同的功能,所以它们都具有可比的值范围可以显著加快梯度下降。
如何实现特性缩放?
获取具有非常不同值范围的特性,并对它们进行缩放,使其具有彼此可比的价值范围。如果X1在3000-2000之间,获得X1缩放版本的一种方法是将每一个原始X取一个值除以范围的最大值2000,所以比例X1将从0.15开始到1,同样,因为X2从0-5,可以通过取每个原始的X2来计算X2的缩放版本除以5,这也是最大的,因此,比例X2现在将从0-1,所以如果你在图上绘制缩放的X1和X2 ,可能如下图所示
除了除以最大值,你也可以做所谓的均值正常化,所以这看起来是你从原始功能开始,然后再缩放它们,使它们的中心都在零附近,所以以前它们只有大于零的值,现在它们有负值也有正值,但可能通常在负一和正一之间,所以计算X1的平均归一化,先求平均值,也称为训练集上X1的平均值,让我们把这个叫做刻薄的μ1,例如,每亩地的平均面积是600平方英尺,所以让我们把每个X1-μ1/2000-300,2000是最大的,300是最小的,如果你这么做,你得到了规范化的X1介于-0.18到0.82,类似于平均归一化X2,你可以计算出特征二的平均值,例如μ2=2或3,然后你可以把每一个X2=X2-μ2/5-0,平均归一化X2介于-0.46到0.54,所以如果你用平均归一化X1和X2来绘制训练数据,可能是这样。
最后一种常见的重新标度方法叫做Z分数归一化,实现Z分数归一化,你需要计算每个特征的标准差,如果你不知道标准差是多少,不用担心,这门课不需要你知道,或者你听说过正态分布或者钟形曲线,有时也叫高斯分布,这就是正态分布的标准差,但如果你没听说过这个,你也不用担心,但如果你知道标准差是多少,然后实现Z分数归一化,你先计算平均值和标准差,通常用每个特征的小写希腊字母sigma表示,例如,可能特征一的标准差是450,μ1=600,归一化X1=X1-μ1/sigma1,你会发现Z分数归一化了X1介于-0.67到3.1,同样,如果你计算第二个特征的标准差是1.4,μ2=2000,归一化X2=X2-μ2/sigma2,在这种情况下,由X2归一化的Z分数现在介于-1.6到1.9,所以说,如果将训练数据绘制在归一化的X1和X2上,可能是如下图所示这样的。
作为经验法则,执行功能缩放时,你可能希望将功能范围从周围的任何地方,-1到周围的某个地方加上每个特征X的一个,但是这些值-1和-1可能有点松,所以如果特征范围在-3到3之间或者-0.3-0.3所有这些都是完全可以的,或者如果你有一个不同的功能X2,它的值在-2和5之间,但也许没问题,如果你也不管它,但是如果另一个像X3这样的特征在-100到100之间,然后就有了一个非常不同的值范围,从-1到1,因此,最好将此功能扩展到3,所以它的范围从接近-1到1,同样的,在-0.001到0.001之间,那么这些值就太小了,这意味着你可能也想重订它,最后,如果你的功能X5,例如医院的尺寸,病人的体温从98°到105°不等,在这种情况下,这些值大约是100,与其他比例特征相比,这实际上是相当大的,这实际上会导致梯度下降运行的更慢,因此,在这种情况下,功能缩放可能会有所帮助,进行功能重新缩放几乎没有任何害处,所以当有疑问时,就去执行它,这就是用这个小技术进行功能缩放的内容。你通常可以让梯度下降跑的更快。