- 机器学习中的加速一阶优化算法
- 林宙辰 李欢 方聪
- 295字
- 2021-08-06 14:48:42
2.1 梯度下降法
本节考虑如下无约束凸优化问题
![030-1](https://epubservercos.yuewen.com/EAA0D1/20784354801358606/epubprivate/OEBPS/Images/030-1.jpg?sign=1739149213-jlPIV5GkON4A8V2470K0wqCSoXEPkUIJ-0-7f33c1c5d39fb45ae6bd4cb81a643a20)
梯度下降法是机器学习中最常用的一阶优化算法之一.梯度下降法是一个迭代算法,每步执行如下操作
xk+1=xk-αk∇f(xk),
其中αk为步长.当目标函数f(x)是L-光滑函数时,步长一般取1/L.进一步地,当目标函数是μ-强凸函数时,梯度下降法具有的线性收敛速度[Nesterov,2018],描述如下
![030-3](https://epubservercos.yuewen.com/EAA0D1/20784354801358606/epubprivate/OEBPS/Images/030-3.jpg?sign=1739149213-rqFTXV0HdrtnLMkQvfONjNkLOx28TaJH-0-64bb3d39fe69f6fc8de4f6bc98dece8a)
即梯度下降法只需要次迭代就可以得到一个ϵ精度的近似最优解x,使得f(x)-f(x*)≤ϵ,其中x*是问题(2.1)的最优解.
当目标函数是L-光滑的一般凸函数(定义15)时,梯度下降法具有的次线性收敛速度[Nesterov,2018],描述如下
f(xk)-f(x*)≤O(L/k).
即梯度下降法只需要次迭代就可以得到一个ϵ精度的近似最优解.