梯度下降

为什么斜率乘以0.01不会在最低点左右震荡呢？

学习率较小相当于权重的更新步长较小，于是在梯度的局部低点附近出现正负变号的情况随之减少，左右震荡就不明显即学习率越小，发生左右震荡的概率也越低。说深了有些复杂，跟模型的收敛条件有关，一般都是先用0.1，然后发现收敛不了，然后用0.01，还不收敛，就用0.001。

什么时候参数应该更新，为什么参数 = 老的 - 步长 * 梯度？

俗话说的训模型，实际上就是更新参数的过程，每一次输入训练数据，就要更新一次参数。我们知道最好的参数，能令代价函数取得最小值，但通常情况下，很难直接求解出来，我们只能知道参数应该调大还是调小，而不知道应该调整多少，视频里给出的参数的更新方法，其实是在反复的实践过程中找到的一种比较有效的方式，完全是人为设定的，而非数学推导出来的。

如果多维情况下，是将a、b、c、d、e（面积、城市、地段、朝向、政策…）等等看作变量，分别求偏微分来确定吗？

就是分别求偏导，然后计算每一个特征的权重调整量，即调整各个特征的参数，让损失变小，拟合样本。