牛顿法的总体思路是将目标函数在迭代处近似为二次函数,然后一次跳到二次函数的最小值点,如此迭代下去。为方便叙述,记。首先对在处进行二阶泰勒展开,并忽略高阶项,得其中为F相对于的Hessian矩阵。然后将再对进行求导,并令导数为0,得于是我们可以得到参数迭代规则然而值得注意的是,当Hessian矩阵非正定的时候,牛顿法可能是不适用的。牛顿法的缺点还在于,必须要求给定的矩阵方程二阶可导并且Hessian矩阵有逆,而且当数据较大的时候,计算Hessian矩阵也是一个较大的负担。