高斯牛顿法在牛顿法的基础上进行了一些近似,可以避免一些问题。
为了方便叙述,记,从而可以将重写成如下形式
事实上,由于Hessian矩阵是梯度对于的导数,从而有如下公式
其中和分别是关于的和矩阵。忽略掉项后并带入式,即可得到
从而可以得到得到高斯牛顿法的参数迭代规则
通过忽略高阶项,我们避免了计算矩阵所造成的麻烦。并且事实上,忽略二阶项是完全有道理的,因为越接近极小值点残差越小,所以被舍弃部分也是较小的,不会对整个算法的精度造成很大影响。
高斯牛顿法的问题在于,只有半正定性,可能会出现奇异的情况;另外,如果求出的步长太大,甚至可能导致算法不收敛,并且也有可能和梯度下降一样走出锯齿路线。