最优化方法-3.无约束优化方法【复习笔记】

第三章无约束优化方法

本文是研究生课程《最优化方法》的复习笔记，主要是总结课件和相关博客的主要内容用作复习。

算法理论基础

无约束优化问题的最优性条件

先是一元函数取得极值的条件，高中就学过的

然后是拓展到多元函数后的理论

这三条和前面一元函数的三条是一一对应的，半正定对应大于等于，正定对应严格大于。

这里的最优性一直在说的都是局部最优性。

无约束凸规划问题的最优性条件

凸规划就有一个很好的特点，就是只要是局部最优解，那他就是全局最优解，也就是不存在鞍点了，再把前面的思路拓展就可以得到很好的结果了。

线搜索下降算法及其收敛性

算法
收敛性
收敛速度

后面的几种方法总览

参考：知乎：最优化：线搜索中有最速下降法、牛顿法、拟牛顿法、共轭梯度法，那么他们分别时候用

Newton法利用了二阶梯度，收敛速度快，但是目标函数的Hesse矩阵不一定正定。于是出现了修正的Newton法，主要是对不同情况进行了分情况讨论。Newton法的优缺点都很突出。优点：高收敛速度（二阶收敛）；缺点：对初始点、目标函数要求高，计算量、存储量大（需要计算、存储Hesse矩阵及其逆）。

共轭梯度法是介于最速下降法和牛顿法之间的一个方法，相比最速下降法收敛速度快，并且不需要像牛顿法一样计算Hesse矩阵，只需计算一阶导数(共轭梯度法是共轭方向法的一种，意思是搜索方向都互相共轭)。

拟Newton法是模拟Newton法给出的一个保优去劣的算法。

最速下降法

最速下降方向：

梯度的定义是：变化最快的方向，其实指向的就是上升最快的方向。

下降最快的方向是梯度的反方向，即−gk。

算法框架

优缺点

精确一维线搜索 + 最速下降法：

例题

牛顿法

这里参考博客：https://blog.csdn.net/itplus/article/details/21896453

牛顿法与阻尼牛顿法

优缺点

例题

共轭梯度法

共轭方向法是介于最速下降法和Newton法之间的一种方法。克服了最速下降法的锯齿现象，从而提高了收敛速度；同时，共轭方向法的迭代公式比较简单，不必求目标函数的Hesse矩阵，比Newton法减少了计算量和存储量。是一种比较实用而且有效的方法。

共轭向量及其性质

关于共轭向量的定义：

满足上述条件后，称d0,d1,…,dk−1是G的共轭方向。

当Q=I时可以发现，d0,d1,…,dk−1相互正交。也就是说：正交是共轭的一种特殊情况，共轭是正交的推广。

共轭方向法的理论基础

用一句话概括那就是：

在精确一维线搜索的情况下，当前迭代点的梯度g与之前所有的搜索方向d正交。

共轭方向法的基本算法框架

如何构造共轭方向：Gram-Schmidt方法
二次函数极小化的共轭梯度法

前面是对共轭方向法+一维线搜索的整理，接下来对二次函数总结成共轭梯度法的理论。

【考】一般函数极小化的共轭梯度法

这部分可能是考试重点

例题比较简单

拟牛顿法

这里参考博客：
https://blog.csdn.net/songbinxu/article/details/79677948
https://blog.csdn.net/itplus/article/details/21896453

牛顿法中的Hesse矩阵HH在稠密时求逆计算量大，也有可能没有逆（Hesse矩阵非正定）。拟牛顿法提出，用不含二阶导数的矩阵 U_t 替代牛顿法中的 H^-1_t，然后沿搜索方向 −U_t g_t 做一维搜索。根据不同的 U_t 构造方法有不同的拟牛顿法。

注意拟牛顿法的关键词：

不用算二阶导数
不用求逆

拟牛顿条件

【重点】DFP算法与推导

DFP公式不用记

这里PPT里的结论是：

DFP算法例题

BFGS算法

无约束优化-本章小结

方法总结

注：

关于收敛性参看第一章最后一节部分的内容

二次终止性：当一个算法用于求解严格凸二次函数极小值问题时，如果从任意初始点出发，算法经过有限步迭代后可达到函数的极小值点，则称该算法具有二次终止性。

参考资料

https://www.cnblogs.com/molinchn/p/13641437.html
https://www.zhihu.com/question/277576767
https://blog.csdn.net/itplus/article/details/21896453
https://blog.csdn.net/songbinxu/article/details/79677948
https://blog.csdn.net/itplus/article/details/21896453

第三章 无约束优化方法