梯度下降

为什么斜率乘以0.01不会在最低点左右震荡呢?

学习率较小相当于权重的更新步长较小,于是在梯度的局部低点附近出现正负变号的情况随之减少,左右震荡就不明显即学习率越小,发生左右震荡的概率也越低。说深了有些复杂,跟模型的收敛条件有关,一般都是先用0.1,然后发现收敛不了,然后用0.01,还不收敛,就用0.001。

什么时候参数应该更新,为什么参数 = 老的 - 步长 * 梯度?

俗话说的训模型,实际上就是更新参数的过程,每一次输入训练数据,就要更新一次参数。我们知道最好的参数,能令代价函数取得最小值,但通常情况下,很难直接求解出来,我们只能知道参数应该调大还是调小,而不知道应该调整多少,视频里给出的参数的更新方法,其实是在反复的实践过程中找到的一种比较有效的方式,完全是人为设定的,而非数学推导出来的。

如果多维情况下,是将a、b、c、d、e(面积、城市、地段、朝向、政策…)等等看作变量,分别求偏微分来确定吗?

就是分别求偏导,然后计算每一个特征的权重调整量,即调整各个特征的参数,让损失变小,拟合样本。