Preliminaries
Theorem
对于方阵, 下列的说法是相等的(知一推其他)
- 是可逆的(invertible)
- 是可逆的
- 的行是线性独立的
- 的列是线性独立的
- 对于任意一个向量, 线性系统都有特定的解
- 存在一个向量, 线性系统都有特定的解
Introduction
Variants of the linear programming problems
线性规划的一般形式:
其中, 是变量, 是用于最小化方程的变量, 但是同时需要满足subject to的约束条件(线性方程或者线性不等式的集合).
我们可以将线性方程(不等式)用向量乘法来表示出来, 如, 那么第一个约束就可以是
我们将系数称作cost vector, 我们期望去最小化cost function:
于是我们可以把线性规划写成如下形式:
其中, 是系数矩阵, 是向量. 是两个集合, 表示需要满足约束的的index
我们成称作决定变量(decision variables), 一个满足所有约束的向量成为一个可行解(feasible solution). 所有的可行解组成一个集合, 称这个集合为可行集(feasible set)或者可行域(feasible region)
我们将需要最小化的方程称作目标方程(objective function)或者cost function, 能够使得目标方程最小化的可行解称为最优可行解(optimal feasible solution), 此时的目标函数的值称作最优消耗(optimal cost).
如果对于任意的实数都能找到一个可行解, 使得, 那么可以认为optimal cost为, 是无下限的(unbounded below)
对于求最大化的情况, 我们先转换成, 然后求最小值.
对于约束条件中的情况, 我们做类似的处理, 转换成. 对于和, 我们可以看作是的特殊情况. 对于等式, 我们可以转换为和同时满足.
于是转换结束之后我们可以得到所有条件都是的形式. 将所有的向量拼接, 我们得到了一个矩阵:
因此我们的线性规划的形式转换为:
Standard form
我们可以认为约束条件是一个线性组合: .
将一般形式规约到标准形式:
- 消除自由的变量: 自由变量是一个变量没有单独的约束(如或). 我们需要用两个额外的变量代替: 用代替, 并满足约束.
- 消除不等式约束: 将不等式转换为等式. 引入新的变量: , 满足. 以及, 满足
如此可以将一般形式的线性规划转换为标准形式, 为后续求解做准备. 一般形式一般与用推到线性规划的数学理论问题.
Piecewise linear convex objective functions
Definition
如果一个函数满足都有, 那么我们称函数为convex(凸)的
如果满足都有, 那么我们称函数为concave(凹)的
注意, 就是在和两点连线上的一点.
对于线性规划而言, 所有的函数都是线性函数, 那么不论是concave还是convex, 他们的判断方法都从不等式变成了等式, 并且如果是convex, 那么一定是concave; 反之亦然.
一个函数如果是convex的, 那么一定是concave的.
如果是一个仿射函数(affine function), 那么该函数一定同时是convex和concave的.
当, 其中是的邻域时, 我们称一个可行解是局部最小化(local minimize)
当时, 我们称一个可行解是全局最小化(global minimize)
对于convex函数, local minimize就是global minimize
Theorem
假设都是convex的函数, 那么函数也是convex的
其中被称为分段函数(piecewise function). 分段函数也有时候用于模仿一个convex的幂次函数.
我们可以把一个目标函数为分段线性函数的线性规划规约成一个标准形式的线性规划:
其中, 决定变量为和
使用分段函数能够便捷的模拟一个真实的convex的函数. 但是会引入不可导点(两端函数连接的地方), 有不连续导数, 会导致函数不平滑.
对于绝对值函数而言, 可以使用类似的方法来规约:
- 将绝对值替换为
- 引入新的变量替换掉函数:
或者用另外一种方法:
- 引入两个新的变量: 使用替换, 满足. 其中, 原始的.
- 需要添加额外的约束条件, 和中至少有一个为0
Geometry of linear programming
Polyhedra and convex set
Definition
- Polyhedron是一个集合
- 如果一个集合存在一个常量满足所有中的元素的所有components的绝对值都小于等于, 那么我们称是有界的(bounded)
- 如果一个向量, 一个标量, 那么
- 称为超平面(hyperplane)
- 称为半空间(halfspace)
之前的feasible set中有提到可以将所有的约束规约成的形式, 那么我们可以把Polyhedron看成一个feasible set. 相似的, 我们可以将当成Polyhedron的标准形式
超平面hyperplane可以看成是有界(bounded)的半空间.
hyperplane的表达中的向量可以认为是该plane的法向量. 假设该平面与法向量的交点是, 那么对于任意一个非的点, 都有

上图是一个polyhedron
Convex Set
Definition
- 对于一个集合, 如果有满足, 那么我们称为凸集(convex set)
- 假设有一组向量, 有对应的一组和为的标量.
- 我们称为convex combination
- 上述所有向量的**凸面体(convex hull)**即为所有的向量的convex combination组成的集合
注意到实际上是和的加权平均, 是连线上的一个分割点. convex set就是判断这条线段是否也在集合中
Theorem
- convex set的交集(intersection)还是convex set
- 每一个polyhedron都是convex set
- 一个convex set中有限元素的convex combination还是属于该convex set
- 有限个向量的convex hull是一个convex set
Extreme points, vertices, and basic feasible solution
Definition
假设是多面体Polyhedron
- 如果一个向量无法在中找到两个向量满足, 那么我们称这个向量为极点(extreme point)
- 如果一个向量, 满足, 那么我们称向量为顶点(vertex)

向量是无法使用两个都在内的点表示的, 但是本是是属于的.

Definition
- 如果一个向量满足对于某些, 那么我们称对应的约束条件为积极约束(active constrains)
- 对于一个Polyhedron , 通过等式和不等式来约束. 假设有一个向量,
- 如果所有的等式约束都是积极的, 并且有个约束是线性独立的, 那么我们称向量为基础解(basic solution)
- 若是basic solution并满足所有的约束, 那么我们称这个向量为基本可行解(basic feasible solution)
如果积极约束有个, 对应个未知变量, 那么如果这个线性方程是线性独立的, 那么这个线性规划系统有解
Theorem
假设向量, 集合是的积极约束的下标, 那么下列说法是等价的(知一推其他)
- 存在个向量, 属于集合中, 是线性独立的
- 所有中的向量能够张成(span)整个空间, 也就是说, 所有的中的向量可以使用的线性组合表示出
- 线性系统有唯一解
或者说是约束是线性独立(linear independent)的, 即是linear independent的.
现在定义corner point的定义: 存在个linear independent的active constrains的feasible solution. 通过寻找个linear independent的active constrains, 我们有一个unique的解, 但是这个不一定是feasible的, 因为可能会违反inactive constrains
Definition
假设Polyhedron 被线性等式和不等式定义, 假设是中的一个元素
- 若满足: 1. 所有等式均为active solution 2. 在所有对的constrains中, 有个是linear independent的. 那么我们称是基本解(basic solution)
- 若是basic solution, 并且满足所有的constrains, 那么我们称为基本可行解(basic feasible solution)
如果只有个constrains定义Polyhedron, 并且, 那么可以认为这个Polyhedron没有basic solution或者basic feasible solution
Theorem
假设非空的Polyhedron , 假设, 那么下列条件是等价的:
- 是vertex
- 是extreme point
- 是basic feasible solution
推论: 假设有finite linear inequality constrains, 那么有finite basic or basic feasible solution
Adjacent basic solution
两个上的不同的basic solution, 如果有个linear equality constrains共同active, 那么我们称这两个basic solution为adjacent的.
如果两个adjacent的basic solution都是feasible的, 那么这两个点的连线称为feasible set的边(edge)
Polyhedra in standard form
假设Polyhedron , 其中, 是行数, 表示equality约束的个数. 假设的行都是linear independent的, 由于每一行都是维的, 我们可以认为说(为了保证线性独立). 那么我们可以说当非空时, 可以丢弃的线性相关行的冗余约束.
对于任何的basic solution, 都有个linear independent active constrains. 此外, 如果要满足约束, 那么这提供了个active constrains. 由于我们假设了并且这个约束都是linear independent的, 我们还需要个与提供的个约束也独立的线性约束. 因此我们会选择个变量创建等式, 即满足约束. 为了让也是linear independent, 我们对的选择是有特定方案的.
Definition
- 考虑和, 假设是row-independent的. 假设basic solution , 当且仅当有时, 存在索引(indices), 满足:
- 列是linear independent的
- 如果, 那么
那么对于Standard Form的Polyhedron可以用这个方式求解:
- 找个linear independent column:
- 令
- 解方程, 求解
如果上述方法构建的basic solution是非负的, 那么我们可以认为是一个feasible basic solution.
变量称为基本变量(basic variables), 其他的是非基本变量(nonbasic). 我们称列为基本列(basic column), 并且他们是linear independent的, 因此他们组成了的一组基. 我们假定不同的基有不同的索引, 但是如果顺序不同不认为是不同的基.
将个基本列组合在一起, 我们获得了一个, 称为基矩阵, 是可逆的, 因为所有column linear independent, 因此是满秩的.
解基本方程有
假设有, 那么两组基和是完全相同的, 但是不是相同的基, 因为indices不同
Correspondence of bases and basic solutions
一组基唯一确定一个基本解. 但是不同的基可能确定了相同的基本解.
Adjacent basic solution and adjacent base
相似的, 如果两组bases共享除了一个basic column以为所有的basic column, 我们称这两组bases为相邻的
相邻的basic solution总是从相邻的bases中获得. 同样, 如果相邻的bases获取不同的basic solution, 那么也是相邻的.
The full row rank assumption on
Theorem
假设有非空Polyhedron , , 有是的行向量. 假设且行是linear independent的. 假设有一个Polyhedron , 那么可以认为
注意, Q其实是标准形式的, 可以写成, 其中是的一个子矩阵, 是的维子向量.
因此我们可以得出结论, 只要是非空的feasible set, 那么可以将标准形式的线性规划问题简化为一个等价的具有相同feasible set的标准形式问题, 并且该问题的所有约束都是linear independent的.
Degeneracy
可能会存在有多个active constrains的情况, 但是线性独立的约束最多不超过个. 在这种情况下, 我们有了一个**退化(degeneracy)**的basic solution.
Definition
若一个basic solution 的active constrains超过个, 那么我们称这个是**退化(degeneracy)**的.
在二维空间中, 一个degeneracy的basic solution基本上是三条或以上的直线的交点.
Degeneracy in standard form polyhedra
Definition
标准形式Polyhedron 有basic solution . 假设有超过个分量为, 那么是一个degeneracy的basic solution.
Degeneracy is not a purely geometric property
在一个特定标准形式表示下degeneracy的basic feasible solution在另一个表示下可能是非退化的。然而,可以证明,如果一个basic feasible solution在一个特定的标准形式表示下是退化的,那么它在同一多面体的每个标准形式表示下都是退化的
Existence of extreme points
Definition
一个Polyhedron , 如果存在一个向量和一个非向量, 满足对于任意的标量, 那么包含一条直线.
Theorem
假设, 下列说法是等价的:
- 至少有一个extreme point
- 不包含直线
- 存在来自的个向量是linear independent的
Corollary
每个非空有界的Polyhedron至少有一个basic feasible solution
Optimality of extreme points
Theorem
考虑在Polyhedron 上最小化的线性规划问题. 假设Polyhedron至少有一个extreme point, 至少有一个最优解. 那么上的extreme point就是的最优解
如果不存在最优解, 那么最小值一定是, 否则最优解一定是其中一个extreme points
Corollary
一个线性规划求解的最小值, 要么是, 要么存在一个最优解
Representation of bounded polyhedra
Theorem
一个非空的有界的(bounded) polyhedron 是其所有的extreme points组成的convex hull
The Simplex Method
Optimality conditions
Definition
假设是polyhedron 的一个元素. 假设满足, 是一个正标量, 那么我们称为可行方向(feasible direction)
我们假设是线性规划的basic feasible solution, 设是basic variable的索引, 设basic matrix . 特别的, 对于nonbasic variable有, 对于basic variables有, 满足
我们考虑通过一个nonbasic variable(), 并将其数值增加到positive value , 同时保持其他的nonbasic variable仍为, 从而将. 此时从代数上而言, 而其他nonbasic variable对应的, 而basic variable对应的变量.
由于我们只关注feasible solution, 因此我们希望有, 由于可行解, 因此有. 其中,
由于是可逆的, 因此有
其中被称为第个基准方向(basic direction). 这个条件下我们一定能满足active constrains. 对于这个约束, nonbasic只有上升了, 其他的都还是, 因此只有basic variable是可能有negative的.
而对于basic variable, 有两种可能:
- basic feasible solution如果不是degeneracy的, 那么足够小时, 是一个feasible direction
- basic feasible solution如果是degeneracy的, 那么会被引向infeasible solution
现在研究在方向上移动对cost function的影响. 假设是第个basic direction, 那么由给出, 其中
Definition
- 假设basic solution , basic matrix , 是basic variable的成本向量. 对于每一个都有, 定义为缩减成本(reduced cost)
- 若basic matrix 满足 1. . 2. , 那么我们称为最优的
Theorem
假设basic feasible solution 对应的basic matrix , 有对应的reduced cost , 那么
- , 那么是optimal的
- 若是optimal且没有degeneracy的, 那么
Implementations of the simplex method
字典序
按照顺序对vector逐元素比较.
e.g. 因为第一个元素
Bland Rule
enter basis后是目标值减小的variable中, 选择指标最小的enter
exit basis后保持feasible的variable中, 选择指标最小的exit
实现
对于maximize的问题, 我们首先需要转换成minimize的问题, 然后再求解
求解流程:
我们一般将non basic variable组成一个basis, 因为他们是Identity Matrix(见initial tableau)
- 将一般形式的LP转换成standard form
- 写出一个initial simplex tableau
- 选择一个basic variable, 作为enter basis(Bland Rule) 选取方法: 找到negative的, 并选择最小(最负)的那一个:
- 选择一个nonbasic variable, 作为exit basis
选取方法:
- 如果这一列都是negative or zero, 那么停止, 最值无界
- 找到比值最小的一个:
- 注意, 如果有比值相等的情况, 使用字典序找到最小的那一个.
- 消元(或者说叫做转轴)
- 重复上述操作, 直到没有negative为止.
e.g.
Solution:
Turn into standard form:
then we can generate the simplex initial tableau:
Tip
我们选择这个是因为:
- 选择, 即在中选择了最小的那个
- 选择, 即中选择了最小的
- 使用消元法进行消元
- 注意更新了左侧的basis, 从变成了
after update:
Tip
同理, 因为这里只有一个是negative, 因此只能是
然后, 我们选择, 即中选择最小的
消元, 更新左侧的basis, 从变成了
after update:
Tip
当中不存在任何的negative的时候, 我们认为求解已经结束.
右侧的数字和左侧的basis对应, 就是最后的解. 这个时候, 下方的的应该正好和左侧的basis对的上, 否则就是一个degeneracy的solution.
Convergence and Degeneracy
Duality Theorem
Motivate
可以看作是拉格朗日乘子法(Lagrange Multiplier method) 的延伸.
Tip
Lagrange Multiplier method:
introduce a Lagrange multiplier and form the Lagrangean
当保持不变的时候, 该问题可以通过求解和来求解:
然后将,代入原始约束求解
允许约束被违反, 但是违反是有代价()的. 当我们想要最小化的时候, 我们必然需要考虑违反约束所带来的成本.
Dual Problem
考虑一个Standard form的Linear programming:
我们称之为原始问题(primal problem).
引入松弛问题(relax problem), 将约束条件变成惩罚项:
其中和维度相同.
令为relax problem的optimal solution, 有
其中是primal problem的optimal solution. 因此我们可以认为给定了原始问题的cost function的lower bound. 于是我们只需要求解的最大值即可:
我们注意到, 其中:
我们在最大化的时候, 只需要考虑不等于的值, 因此dual problem和如下linear programming没有区别:
因此我们得到了dual problem的一般形式:
| primal problem | minimize | maximize | dual problem |
|---|---|---|---|
| constrains | variables | ||
| variables | constrains | ||
| 对于特殊形式, 可以使用矩阵表示(e.g. [[#standard-form | Standard form]]): |
e.g.
Theorem
如果将一个问题转换为其对偶问题, 然后将对偶问题的等价最小化问题 再次对偶一次, 得到原始问题的等价最大化问题.
The Duality Theorem
Theorem
弱对偶定理: , 其中是原始问题可行解, 是对偶问题可行解
Corollary
- 如果, 那么是原始问题最优解, 是对偶问题最优解
- 如果原始问题最优成本为, 那么对偶问题无解
- 如果对偶问题最优成本为, 那么原始问题无解
Theorem
强对偶定理: 4. 如果primal problem和dual problem中有一个有解, 则另一个问题也有解, 且最优值相等. 5. 设是primal的optimal solution, 是primal的optimal basis, 是dual的optimal solution, 则:
primal problem ⇒ dual problem ⇒ introduce relax variable, turn to standard form ⇒ simplex solve
primal problem的simplex解出来的松弛变量对应的的值就是dual problem solution.
对偶单纯形法:
-
适用范围: 需要同时满足两个条件, 使普通单纯形法无法使用
- 将乘转成之后, 导致列有负值
- 同时, 在行全部大于0
-
求解流程: 实现类似[[#Implementations of the simplex method#实现|单纯形法]], 但是改了
我们一般将non basic variable组成一个basis, 因为他们是Identity Matrix(见initial tableau)
- 转换成Dual problem
- 将primal problem的的constrains乘, 然后写出initial simplex tableau
- 选择一个basic variable, 作为enter basis(Bland Rule) 选取方法: 对于的, 选择第个变量.
- 选择一个non-basis variable, 作为exit basis
选取方法:
- 如果这一列都是positive or zero, 那么停止, 最值无界
- 找到比值最小的一个:
- 注意, 如果有比值相等的情况, 使用字典序找到最小的那一个.
- 消元(或者说叫做转轴)
- 重复上述操作, 直到没有negative为止.
e.g.
Turn into standard form, with constrains:
generate initial simplex table:
Tip
选择这个是因为:
- 找的最小负数, 选择对应的
- 找最小的一项, 选择, 选择为exit basis, 为enter basis, 是对应的值
The second simplex table:
Tip
选择这个是因为:
- 只有一个
- 选择, 选择为exit basis, 为enter basis, 是对应的值
The third simplex table:
Therefore, , the optimal cost is .
Convex Set
Affine Set
Definition
一个集合满足任意不同两点, 且, 则这个集合是affine的
即, 如果任意两点连线表示的直线上的所有点都在这个set中, 那么这个set是affine set
这个定义可以扩展到多个点: 的affine combination where 也是属于affine set的.
Definition
affine dimension: 一个affine hull的维度定义为affine dimension
relative interior: 闭包仿射(closure affine C)的内部, 记作
其中表示relative boundary
Convex Set
Definition
一个集合满足任意不同两点, 且, 则这个集合是convex的
即, 如果任意两点连线上的所有点都在这个set中, 那么这个set是convex set
注意与affine set区分, affine set要求整个直线都在这个set里面, 但是convex只要求连线线段在set中
Definition
convex hull:
Cones
Definition
- , 如果满足, 那么C是cone, 或者non-negative homogeneous(非负齐次)
- , 如果, 那么是convex cone
- 称为conic cone(锥包). 即所有点的conic combination的集合
Operation that Preserve Convexity
- Insertion 如果都是convex的, 那么也是convex的
- affine function 如果是affine的()
- perspective and linear-fractional function:
- perspective function:
- Linear-fractional function:
Convex Function
Definition
convex functino:
examples:
in :
- ,
- , or
- Concave: , , for
in :
- quadratic function: is concave if and only if
- geometric mean: is concave on
- is concave on
- is concave on
in :
- affine function: is concave and convex on
- Logarithmic Determinant Function: is concave on
- maximum eigenvalue function: is convex on
Definition
epigraph:
Restriction of a Convex Function to a Line
Theorem
let and is .
is convex if and only if is convex for
First and Second Order Condition
Gradient:
Hessian:
Definition
- First order condition: 有convex的domain的可微函数, 当且仅当的时候是convex的
- Second order condition: convex domain的二次可微的函数, 当且仅当的时候是convex的
Some Other Convexity
Quasi-Convexity
一个函数是quasi-convexity的, 当且仅当是convex的且sublevel set 对于任何都是convex的
Log-Convexity
Convexity w.r.t. Generalized Inequalities
如果是convex的且满足
那么称是K-convex的
Convex Problem
- 如果一个点满足所有的constraints, 那么称这个点是feasible的. 否则是infeasible
- 如果一个问题, 至少有一个点是feasible的, 那么称该问题为feasible的. 否则是infeasible
- 如果问题是infeasible的, 那么
- 如果问题是无边界的(unbounded below), 那么
Stationary Point
Definition
如果, 那么称为stationary point
Theorem
- 如果一个stationary point , 对于其neighborhood , 满足, 那么是local minimization
- 如果一个stationary point , 有, 满足, 那么是global minimization
- 如果一个stationary point , 对于其neighborhood , 满足, 并且 那么称为Saddle point
Convex Optimization Problem
standard form:
其中, 都是convex的. 等式约束(equality constraints)都是affine的
对于一个convex problem, 其local optimal就是global optimal.
Theorem
一个可行解(feasible point)是optimal的 当且仅当
Quasi-Convex Optimization Problem
standard form:
其中, 是Quasi-Convexity的, 都是convex的. 等式约束(equality constraints)都是affine的
将使用epigraph 表示:
e.g.: Assume is convex, is concave and , .
for , is convex in if and only if
Some Other Solver
LP(Linear Programming)
Convex Problem: affine的objective function and constraints.
QP(Quadratic Programming)
convex problem: assume , convex quadratic objective function and affine constraints
QCQP(Quadratically Constrained QP)
convex problem: assume , convex quadratic objective function and constraints
SOCP(Second-Order Cone Programming)
convex problem: linear objective and second-order cone constraints
- 如果是行向量, 那么会退化成LP(Linear Programming)
- 如果, 那么会退化成QCQP(Quadratically Constrained QP)
Generalized Inequality Constraints
其中, 是convex objective function, 是K-Convex的
Conic Form Problem
SDP(Semidefinite Problem)
convex problem: linear objective function and linear matrix inequality(LMI) constraints
注意到多个LMI可以写成一个LMI, 因此有:
- LP(Linear Programming) and equivalent SDP(Semidefinite Problem):
- SOCP(Second-Order Cone Programming) and equivalent SDP(Semidefinite Problem):
Eigenvalue minimization:
\begin{matrix}\text{minimize}&\lambda_\max(\mathbf A(\mathbf x))\end{matrix}其中, \lambda_\max指的是的最大的特征值, 因此有\lambda_\max(\mathbf A(\mathbf x))\leq t\Leftrightarrow\mathbf A(\mathbf x)\preceq t\mathbf I
因此, 可以转成等效SDP:
Lagrangian
定义Lagrangian方程为:
Lagrangian Dual Function
Theorem
下界:
拉格朗日对偶优化问题:
KKT Condition
primal feasibility
原始条件可行:
dual feasibility
对偶的Lagrangian multiplier非负:
complementary slackness
zero gradient for Lagrangian with respect to x
Differentiable Unconstrained Minimization
其中可微
Convergence Rate
计算方法:
假设给定objective function能够转换成一个序列, 计算极限
convergence rate就是.
Convergence Type
- : superlinearly
- : linearly
- : sublinearly
- : non-convergence
Convergence Rate of Quadratic Minimization
假设是的最大的eigenvalue, 是最小eigenvalue, 那么可以认为:
, 那么
Convergence Analysis:
Convergence Rate:
- sublinear:
- linear:
- quadratic(super linear):
Iteration Function: 4. sublinear: 5. linear: 6. quadratic:
Iterative descend algorithm
从开始, 构造序列满足
下降方向(descend direction) 满足:
每一次迭代中, 有, 其中是在的时候的descend direction, 是步长.
在机器学习中, 通常是loss函数, 通常是loss函数中的参数, 是学习率
Note
Steepest Descend 最陡下降法
- 最快优化objective function的方向:
mathop{\arg\min}_{\mathbf d:|\mathbf d|2\leq1}f’(\mathbf x;\mathbf d)=\mathop{\arg\min}{\mathbf d:|\mathbf d|_2\leq1}\nabla f(\mathbf x)^\top\mathbf d=-|\nabla f(\mathbf x)|_2$$
Quadratic Minimization
该方程的梯度为
参数更新:
step size() rule:
Exact Line Search
假设有, 那么
Kantorovich’s inequality:
Smooth problem
-strong和-smooth定义:
或者:
Theorem
对于-strong和-smooth的问题, 有:
- step size: (v.s. )
- contraction rate: (v.s. )
iteration complexity:
Backtracking Line Search
Armijo Condition:
algorithm:
- initialize , ,
- while , do:
上界:
Theorem
收敛性:
Regularity Condition
-strong + -smooth
Polyak-Lojasiewicz Condition
Over-parameterized linear regression
over-parameterize: model dimension > sample size
定义
有
认为如果, 其rank为, 且满足step size , 有:
Convex and Smooth Problem
L-smooth
majorization-minimization
Theorem
如果是-smooth的, 且有:
Non-convex Problem
Theorem
- for general: $$
- for convex: $$
Gradient methods for Constrained Problems
Frank-Wolfe algorithm
over a convex set: . 步长类似Exact Line Search:
对于non-convex:
有:
Convergence
Theorem
对于compact约束集合, 效率可以达到 -accuracy, 在个迭代中
Example
假设有集合是-convex的, 假设, , 定义, 那么有:
Theorem
假设是convex and L-smooth的, 假设是-strongly convex的, 那么
Projected Gradient Method
将一个在集合外的点映射到集合中
Definition
Euclidean projection(quadratic minimization):
循环:
Theorem
假设有集合是close且convex的, 那么有:

从上图可知, 有, 即和最速下降的方向是正相关的
Strongly Convex
Theorem
假设, 假设是-strongly convex且L-smooth的. 令, 有
一些其他情况参见Smooth problem
Non-differentiable Problems
(Projected) Sub-gradient Method
Definition
当且仅当满足
的时候, 称之为sub-gradient
其中是的任意的sub-gradient
Theorem
chain rule:
composition: , 假设, 且, 那么有:
pointwise maximum: 如果有, 那么有: , 指的是convex hull of subdifferentials of all active functions
pointwise supremum: 对于, 有: , closure的定义参见闭包仿射部分
Example
假设有norm: , 对于满足, 有
其中, 是原始norm的对偶:
Example
l1-norm:
因为
因此有
Fundamental inequality for projected sub-gradient methods
majorization-minimization
找到另一个函数majorizes , 然后优化这个函数
Lemma
Projected sub-gradient 更新规则 满足:
Polyak’s step size rule
推荐的step size: , 其error reduction为:
当已知的时候很有用
Convergence Rate是sublinear,
Theorem
假设是convex且-Lipschitz continuous的. 那么projected sub-gradient method 应用Polyak’s step size有:
Theorem
假设是convex且-Lipschitz continuous的. 那么projected sub-gradient method, 但是没有应用Polyak’s step size, 有:
summary:

Convex-concave saddle point problems
Transclude of #stationary-point