Issuu on Google+

第二章

基础知识

本章内容主要为以后各章做基础准备. 第一节到第二节规范一些集合 常用的符号、概念、运算和基本结论. 第一节主要介绍集合与向量空间的 基本概念和基本运算, 引出了欧氏空间的概念. 第二节介绍集合的凸性和锥 概念. 第三节给出了对偶的概念. 第四节讨论了凸函数的性质. 第五节单独 研究共轭函数所具有的性质. 第六节简单介绍计算复杂性的概念, 有关连续 与组合最优化的复杂性概念目前还不能完全统一, 为了本书的系统性, 我们 将分别介绍两个概念, 并给以一定的比较.

第一节 集合、向量与空间 集合与运算 集合是一些元素的群体. 对于集合 A, B 和全集 Ω, 常用的集合运算有: 交、并、差和补, 定义分别如下: (i) 交运算. A ∩ B = {x ∈ Ω | x ∈ A 且 x ∈ B}, (ii) 并运算. A ∪ B = {x ∈ Ω | x ∈ A 或 x ∈ B}, (iii) 差运算. A \ B = {x ∈ Ω | x ∈ A 但 x ∈ / B}, (iv) 补运算. A = {x ∈ Ω | x ∈ Ω \ A}. 一个集合的负元素集定义为 −A = {−x ∈ Ω | x ∈ A}. 两个集合的加和减运算分别定义为 A + B = {x + y ∈ Ω | x ∈ A, y ∈ B}, 21


第一节 集合、向量与空间

第二章

基础知识

A − B = A + (−B). 集合运算的简单性质有 A ∩ B = A ∪ B, A ∪ B = A ∩ B 和(A) = A. 本书中还会用到笛卡尔积 (Cartesian product)集合运算. 设 A 及其全 集 Ω1 和 B 和其全集 Ω2 , 定义两个集合的笛卡尔积为 {( ) } x A×B = ∈ Ω1 × Ω2 | x ∈ A, y ∈ B . y

向量与空间 本 书 向 量 与 空 间 都 是 在 实 数 域 讨 论. 全 体 实 数 集 合 为 R. x = (x1 , x2 , . . . , xn )T 表示一个 n 维实列 (column) 向量, 其中 “T” 为转置符 号. 实向量的全体用 Rn 表示, 为 Rn = {x = (x1 , x2 , . . . , xn )T | xi ∈ R, i = 1, 2, . . . , n}. 向量可以用行或列的形式表示, 为了规范, 本书通篇采用列向量形式. 对 x ∈ Rn , x ≥ 0 为 xi ≥ 0, i = 1, 2, . . . , n 的简写形式, 称为非负向量. Rn 中 的非负向量集合记为 Rn+ = {x ∈ Rn | x ≥ 0}, 也称为第一卦限集. A = (aij )m×n 表 示 一 个 由 m 行 n 列 实 数 aij , i = 1, 2, . . . , m, j = 1, 2, . . . , n 组成的矩阵, 其全体记成 M(m, n). 一些常用的特殊矩阵有: Diag(a1 , a2 , . . . , an ) 表示以 a1 , a2 , . . . , an 为对角元素而其他元素为 0 的对 角方阵, I 表示对角元素全为 1 的对角阵. 向量是一类特殊的 n × 1 矩阵. 两个同型矩阵 A = (aij ), B = (bij ) ∈ M(m, n) 称为相等, 若 aij = bij 对所有的 1 ≤ i ≤ m, 1 ≤ j ≤ n 成立. 两个同型矩阵的加法定义为 A + B = (aij + bij ). 当 k ∈ R, A = (aij ) ∈ M(m, n) 时, 矩阵的数乘运算为 kA = (kaij ). 22


第二章

基础知识

第一节 集合、向量与空间

当 A = (aij ) ∈ M(m, n) 和 B = (bij ) ∈ M(n, p) 时, 两个矩阵相乘的结 果为 AB = (cij )m×p , 其中 cij 定义为 cij =

n ∑

ail blj .

l=1

当 A = (aij ) ∈ M(m, n) 时, A 的转置矩阵记为 AT = (bij ) ∈ M(n, m), 其中 bij 定义为 bij = aji , i = 1, 2, . . . , n, j = 1, 2, . . . , m. 在定义以上的加法和数乘后, Rn 和 M(m, n) 都构成一个线性空间. 本 书后续内容主要集中在这两个实线性空间上讨论. 实线性空间中 s ≥ 1 个元素 α1 , α2 , . . . , αs 的线性组合为 k1 α1 + k2 α2 + . . . + ks αs ,

(2.1)

其中 k1 , k2 , . . . , ks 为实数. 线性组合 k1 α1 + k2 α2 + . . . + ks αs = 0, 当且仅当 k1 = k2 = . . . = ks = 0 成立时, 则称 α1 , α2 , . . . , αs 线性无关 (linear independent). 一个线性空间 V 中线性无关元素的最大个数称为空 间的维数 (dimension), 记成 dim(V). 由线性代数理论, 一个矩阵所有列向 量中线性无关向量的最大个数同所有行向量中线性无关向量的最大个数 相同, 因此, 一个矩阵 A 的所有列向量 (或所有行向量) 中线性无关向量 的最大个数称为矩阵的秩 (rank of matrix), 记成 rank(A). 单位矩阵的秩 rank(I) = n. ∑ 当 (2.1) 中 k1 ≥ 0, k2 ≥ 0, . . . , ks ≥ 0 且 sl=1 kl = 1 时, 称之为凸组合 ∑ (convex combination). 去掉组合系数非负的要求, 即当 (2.1) 中 sl=1 kl = 1 时, 称之为仿射组合 (affine combination). 若线性空间中一个子集合的任意有限个元素的仿射组合还在其中, 则 称这个子集合为仿射空间 (affine space). 包含原点的仿射空间为一个线性 空间. 任何一个仿射空间 Y 可以通过其中的任何一点 x0 ∈ Y 的位移得到 一个线性空间 X = {x − x0 | x ∈ Y}. 23


第一节 集合、向量与空间

第二章

基础知识

仿射空间 Y 的维数定义为 X 的维数. 当 Rn 中 α1 , α2 , . . . , αs+1 个点以任 何一个点位移后得到 s 个向量线性无关, 则称 α1 , α2 , . . . , αs+1 仿射线性无 关 (affine linear independent). 一个矩阵称为实对称的, 若其满足 A ∈ M(n, n) 且 A = AT . 全体 n 阶 实对称矩阵的集合记成 S n , 其维数为 dim(S n ) = n(n+1) . 对称矩阵集合 S n 2 构成一个线性空间, 它是 M(n, n) 的一个线性子空间. 若 n 阶实对称矩阵 A 对任意 x ∈ Rn 满足 xT Ax ≥ 0, 则称 A 是半正 定的 (positive semi-definite), 记成 A ≽ 0, 记全体 n 阶半正定的矩阵集合为 S+n = {A ∈ S n | A ≽ 0}. 若 n 阶实对称矩阵 A 对任意 x ∈ Rn , x ̸= 0 满足 xT Ax > 0 成立, 则称 A 是正定的 (positive definite), 记成 A ≻ 0, 全体 n 阶正定矩阵的集合记成 n S++ = {A ∈ S n | A ≻ 0}.

当 A ∈ M(m, n), 记 N (A) = {x ∈ Rn | Ax = 0}, 称为 A 的零空间 (null space), 也就是方程组 Ax = 0 的解空间. 定义 R(A) = {y ∈ R | y = Ax = m

n ∑

Ai xi , x ∈ Rn },

i=1

称为 A 的列生成空间 (range of A), 表示 A 的列向量的所有线性组合所形 成的集合, 其中 A = (A1 , A2 , . . . , An ), Ai 为 A 的第 i 个列向量. 若 A 为 n 阶方阵, tr(A) 表示 A 的迹 (trace), 定义为 tr(A) =

n ∑

aii .

i=1

以下罗列一些有关矩阵及其运算的代数基本结论, 详细内容可以参考 [26]. 定理 2.1 迹有下列性质: (i) tr(A) = tr(AT ), 其中 A 是一个 n 阶方阵. 24


第二章

基础知识

第一节 集合、向量与空间

(ii) tr(AB T ) = tr(B T A), 其中 A 和 B 是同型矩阵. ∑ ∑ (iii) tr(A( ki=1 Bi )T ) = ki=1 tr(ABiT ), 其中 A 和 Bi 是同型矩阵. (iv) tr(kAB T ) = k · tr(AB T ), 其中 k 为实数, A 和 B 是同型矩阵. (v) tr(AT A) ≥ 0 且 tr(AT A) = 0 当且仅当 A = 0. (vi) tr(DxxT ) = xT Dx, 其中 D ∈ S n , x ∈ Rn . 证明 只证明 (ii). 由 T

tr(AB ) =

m ∑ n ∑

n ∑ m ∑

aij bij =

i=1 j=1

bij aij = tr(B T A)

j=1 i=1

得到 (ii) 成立. 其它比较直观.  在线性空间 V 上, 对任意 X, Y ∈ V 定义内积 (inner product)运算 X • Y ∈ R 满足 (i) X • Y = Y • X, X, Y ∈ V, (ii) X • (Y + Z) = X • Y + X • Z, X, Y, Z ∈ V, (iii) (kX) • Y = k(X • Y ), X, Y ∈ V, k ∈ R, (iv) X • X ≥ 0, X • X = 0 ⇔ X = 0. 有了内积的定义, 就可以得到线性空间的长度和角度的概念. X ∈ V 的 模 (norm)定义为 1 ∥X∥ = (X • X) 2 . 由内积的定义, 得到 Cauchy–Schwarz 不等式:X, Y ∈ V, | X • Y |≤ ∥X∥∥Y ∥. 以此定义两个非零元素 X, Y 间的角度, θ = arc cos

X •Y . ∥X∥∥Y ∥

对 x, y ∈ Rn , 一个自然的内积为: x • y = xT y. 25


第一节 集合、向量与空间

第二章

基础知识

在 M(m, n) 上, 当 X, Y ∈ M(m, n) 时, 我们常用 X • Y = tr(X T Y ) = tr(XY T ). 于是定义了 X ∈ M(m, n) 的 Frobenius 范数 (Frobenius norm): √ 1 ∥X∥F = (X • X) 2 = tr(X T X). 一个有限维线性空间在赋予了内积后, 线性空间就有了距离和角度, 因 此称为欧氏空间 (Euclidean space), 记成 Rn , 表示 n 为欧氏空间. 还有一 些其它的范数定义为: • p-范数: ∥x∥p = (

∑n i=1

| xi |p )1/p for p ≥ 1, x ∈ Rn ,

• 无穷范数: ∥x∥∞ = max{| x1 |, . . . , | xn |}, x ∈ Rn , • 谱范数: ∥X∥ = 的最大特征值.

λmax (X T X), X ∈ M(m, n), λmax (X T X) 表示 X T X

特别需要注意, 本书后续部分除特别注明外, Rn 中的默认范数为自然 内积形成的范数, M(m, n) 中的默认范数为 Frobenius 范数. 在欧氏空间 V 中, 范数满足三角不等式, 即对任意 x, y ∈ V, 都有 ∥x + y∥ ≤ ∥x∥ + ∥y∥. 两个欧氏空间 ( V)1 和 V2 可以通过笛卡尔积形成一个欧氏空间 V1 × V2 , x ∈ V1 × V2 的范数可以定义为: 其中一个元素 y ( ∥

x y

) ∥=

√ ∥x∥2 + ∥y∥2 ,

其中 ∥x∥ 和 ∥y∥ 虽然用同一个范数符号, 但分别表示在原有空间 V1 和 V2 的范数. 内积运算的 (ii) 和 (iii) 具有线性性, 于是将线性方程组在自然内积下 记为: 26


第二章

基础知识

第一节 集合、向量与空间  1 a •x =     a2 • x =  ··· ···    m a •x =

b1 b2 ··· bm

  简记为 Ax = b, 其中 a , · · · , a 和 x 都属于 R 且 A =    1

m

n

(a1 )T (a2 )T .. .

  .  

(am )T 进一步对属于 S n 的矩阵 A1 , · · · , Am 和 X  A1 • X = b1     A •X = b 2 2  ··· ··· ···    A m • X = bm   A1    A2   也就可以写成 A • X = b, 其中 A =  .  .  ..  Am 在本书中, 我们经常会用到一些实对称矩阵的性质, 在此罗列一些主要 结果. 定理 2.2 若 A ∈ S n , 则存在正交阵 Q(满足 QT Q = QQT = I), 使得 QT AQ = Diag(λ1 , λ2 , . . . , λn ), 其中 λ1 , λ2 , . . . , λn 为 A 的特征值. 例 2.1 设 A ∈ S n 的特征值为 λ1 , λ2 , . . . , λn , 则 tr(AT A) = x ̸= 0 时, xT Ax min {λi } ≤ T ≤ max {λi }. 1≤i≤n 1≤i≤n x x 解: 由定理 2.2, 得到 AT A = QDiag(λ21 , λ22 , . . . , λ2n )QT . 27

∑n i=1

λ2i . 当


第一节 集合、向量与空间

第二章

再由定理 2.1, 得到 tr(AT A) =

∑n i=1

基础知识

λ2i .

由定理 2.2, xT Ax (QT x)T Diag(λ1 , λ2 , . . . , λn )QT x = ≤ max {λi }. 1≤i≤n xT x (Qx)T Qx 同理得到

xT Ax xT x

≥ min1≤i≤n {λi }.

上述例子给出了 Frobenius 范数的求解公式为:∥A∥ =

√∑n i=1

λ2i .

定理 2.3 设 A ∈ S+n 且 rank(A) = r, 则存在 pi ∈ Rn , i = 1, 2, . . . , r, 使得 A=

r ∑

pi (pi )T .

i=1

证明: 由定理2.2和 A ∈ S+n 的条件, 得到 QT AQ = Diag(d1 , d2 , . . . , dr , 0, . . . , 0), 其中 di > 0, i = 1, 2, . . . , r. 于是, A = QDiag(d1 , d2 , . . . , dr , 0, . . . , 0)QT = CC T , 其中

 √ d1   0 C = Q   0 0

... ...

0

0 √ ... dr ... 0

 ... 0  ... 0  .  ··· 0  ··· 0

记 C = (p1 , p2 , . . . , pr , 0, · · · , 0), 得到结论.  对于半正定矩阵还可以进一步进行秩一分解 (rank-one decomposition)且满足一定的约束条件. 定理 2.4 [45] 设 X ∈ S+n 的秩为 r, G 为任意给定矩阵, 则 G • X ≥ 0 的充 分必要条件为:存在 pi ∈ Rn , i = 1, 2, · · · , r, 使得 X=

r ∑

pi (pi )T 且 (pi )T Gpi ≥ 0.

i=1

28


第二章

基础知识

第一节 集合、向量与空间

证明:由定理2.1得到 G • X = tr(GX ) = T

r ∑

r ( i i T) ∑ G • p (p ) = (pi )T Gpi ≥ 0,

i=1

i=1

充分性得证. 我们按 Sturm 和 Zhang[45] 给出的一个构造性计算过程证明 必要性. 计算过程如下: • 输入: X ∈ S+n 和给定的 G 满足 G • X ≥ 0. • 输出: 向量 y 满足 0 ≤ y T Gy ≤ G • X 且 X − yy T 为秩 r − 1 的半正 定矩阵. 步骤 0 计算出 p1 , p2 , · · · , pr 使得 X =

∑r i=1

pi (pi )T .

步骤 1 若 [(p1 )T Gp1 ][(pi )T Gpi ] ≥ 0 对任意 i = 2, 3, · · · , r 成立, 则输出 y = p1 . 否则设 j 满足(任取其一)[(p1 )T Gp1 ][(pj )T Gpj ] < 0. 步骤 2 计 算 α 使 得 (p1 + αpj )T G(p1 + αpj ) = 0. 输 出 y = (p1 + √ αpj )/ 1 + α2 . 当 (p1 )T Gp1 = 0 时, 计算在步骤 1 停止, 输出 y = p1 而 X − yy T 为秩 r − 1 的半正定矩阵. 以下在 (p1 )T Gp1 ̸= 0 的假设下讨论. 若 [(p1 )T Gp1 ][(pi )T Gpi ] ≥ 0 对任 意 i = 2, 3, · · · , r 成立, 就此推出 (p1 )T Gp1 和 (pi )T Gpi 有相同符号. 加上 G•X =

r ∑

r ∑ G • p (p ) = (pi )T Gpi ≥ 0,

i=1

i=1

i

i T

就得到 (pi )T Gpi ≥ 0 对所有 1 ≤ i ≤ r 成立. 否则算法在步骤 2 停止, 由于 (p1 )T Gp1 和 (pj )T Gpj 异号, 则存在 α 使 √ 得 y T Gy = 0 ≤ G • X 成立. 记 z = (pj − αp1 )/ 1 + α2 . 有 ∑ X − yy T = zz T + pi (pi )T ∈ S+n , i∈{2,3,···,r}−j

且秩为 r − 1. 对一个秩为 r 的矩阵, r = 0 结论明显成立. 否则重复以上算法使得秩 逐步下降可以得到必要性的证明.  29


第二节 集合的凸性与锥

第二章

基础知识

有关步骤 0 满足条件的 p1 , p2 , · · · , pr 分解, 定理2.3只是给出了存在性 证明, 但作为算法我们则需要一个多项式时间的算法. 采用 Gauss 消元法 (参考 [26]), 只使用一行加(减)到另一行的初等行变换, 对称地同时一 列加(减)到另一列的初等列变换, 可以得到满足条件的分解, 这一过程的 计算量不超过 n3 的一个常数倍数. 步骤 1 的计算量也不超过 n3 的常数倍 数. 再考虑每次循环输出一个 y, 最多有 n 次这样的循环, 因此上述算法的 总计算量不超过 n4 的常数倍数, 与变量个数 n 为多项式关系, 这样的算法 称为多项式时间算法 (polynomial time algorithm). 鉴于以后研究的线性锥规划问题主要在 Rn 和 S n 两个线性空间讨论, 且在 Rn 采用自然内积范数和在 S n 采用 Frobenius 范数, 我们可以建立一 个一对一的映射 X ∈ S n vec(X) √ √ √ n(n+1) = [X11 , 2X12 , X22 , 2X13 , 2X23 , X33 , · · · , Xnn ]T ∈ R 2 , 使得 X • Y = vec(X)T vec(Y ) =

Xij Yij ,

i,j

其中第一个“•”表示 S n 中的矩阵 Frobenius 内积, 第二个 vec(X)T vec(Y ) n(n+1) 表示 R 2 中的自然内积. 实际上, 数学的理论结果是欧氏空间中的任何两个范数都是等价的, 即 我们都可以建立类似的上述一对一映射, 保证任何一个范数与自然内积决 定的范数等价. 基于本书只讨论 Rn 和 S n 两个线性空间, 同时在 Rn 采用 自然内积范数和在 S n 采用 Frobenius 范数, 我们以后都针对 Rn 进行讨论, 所得结果自然推广到 S n 上.

第二节

集合的凸性与锥

开集、闭集和内点 对于任何一个欧氏空间, 因有了范数, 就有距离概念, 也就可以定义开 集、闭集、内点等概念. 为了直观简便, 以下结果都针对 Rn 给出. 由上节 30


第二章

基础知识

第二节

集合的凸性与锥

结束部分的讨论, 所得结果同样在 S n 上成立. 以下讨论中 Rn 中采用自然 内积范数而 S n 中采用 Frobenius 范数. 以点 x0 为中心 ϵ > 0 为半径的邻域 (neighborhood)为: { } N (x0 ; ϵ) = x ∈ Rn | ∥x − x0 ∥ < ϵ . 若一个集合 X ⊆ Rn 满足:对任意 x ∈ X , 存在 ϵ > 0 使得 N (x; ϵ) ⊆ X , 则称 X 为 Rn 中的开集, 简称开集 (open set). X ⊆ Rn 为闭集 (closed set)则定义为:Rn \X = {x ∈ Rn | x ∈ / X } 为开集. X ⊆ Rn 的闭包 (closure)定义为包含 X 的最小闭集, 记成 cl(X ). 闭集也可以用极限的概念来定义:若 X 中的任何一个极限点还在该 集合中, 则该集合为闭集. X ⊆ Rn 的内点 (interior)定义为: { } int(X ) = x ∈ X | 存在ϵx > 0使得N (x; ϵx ) ⊆ X . 边界 (boundary)定义为: bdry(X ) = cl(X )\int(X ) = {x ∈ cl(X ) | x ∈ / int(X )} . 若存在 r > 0 使得 ∥x∥ ≤ r, ∀x ∈ X , 则称 X 有界. n n n ) = S+n , , cl(S+n ) = cl(S++ 是开集, S+n 是闭集, int(S+n ) = S++ 例 2.2 S++

bdry(S+n ) = {A ∈ S+n | 存在x ∈ Rn , x ̸= 0 使得xT Ax = 0}. 解: 用 λmax (A) 和 λmin (A) 分别表示矩阵 A 特征值的最大最小值. n 任给 A ∈ S++ , 由定理 2.2 和正定的定义推出 λmin (A) > 0. 取 ϵ = λmin2 (A) , 对 N (A; ϵ) = {B ∈ S n | ∥B − A∥ < ϵ} 中任意 B, 由例 2.1 推知 B − A 每 一个特征值的绝对值严格小于 ϵ. 对任意 x ̸= 0, 有 xT Bx = xT Ax + xT (B − A)x > (λmin (A) − ϵ)xT x =

λmin T x x > 0, 2

n n 推出 B ≻ 0, 即 B ∈ S++ , 所以 S++ 为开集.

欲证 S+n 是闭集, 只需证明 S n \ S+n 为开集. 同上思路, ∀A ∈ S n \ S+n , 其特征值 λmin (A) < 0, 取 ϵ = |λmin2 (A)| 即可仿效上面的证明得到结果. 31


第二节 集合的凸性与锥

第二章

基础知识

n 明 显 int(S+n ) ⊇ S++ . 对 ∀A ∈ int(S+n ), 若 A 不 是 正 定 矩 阵, 记 A = QDiag(λ1 , λ2 , . . . , λn )QT , 不妨设 λ1 ≤ λ2 ≤ . . . ≤ λn , 由定理 2.2 及半 正定阵的定义, 则 λ1 = 0. 对任意的 ϵ > 0, 存在

B = QDiag(−ϵ/2, λ2 , . . . , λn )QT , n 使得 ∥B − A∥ = ϵ/2 < ϵ, 但 B 不是半正定矩阵. 故 int(S+n ) ⊆ S++ . 由此 n n 得到 int(S+ ) = S++ .

例题中余下的结论可类似证明. 集合 X ⊆ Rn 的相对内点 (relative interior)定义为:设 A 是一个包含 X 的最小仿射空间, { } ri(X ) = x ∈ X | 存在开集Y ⊆ Rn 满足x ∈ Y ∩ A ⊆ X . 相对内点的概念比较抽象, 但在线性锥规划中非常基础. 首先需要特别 注意的是, 当 X 只含一个点时, 它的相对内点就是其本身. 可以完全按定 义得到包含这一点的仿射空间就是这一点自身, 仿射空间的维数为 0. 当 X 中至少包含两点时, 包含 X 的最小仿射空间至少包含这两点形成的直线, 此时, 这个仿射空间的维数不小于 1, 相对内点就相当于这个仿射空间的内 点. 于是, 研究相对内点的性质就可以先将这个最小仿射空间(经一点的位 移为线性空间)看成线性空间, 然后按线性空间的性质研究. 所以, 有时我 们不加区别地将线性空间的一些性质直接套用到研究相对内点的仿射空间 中. 下面通过两个例子予以说明. { } 例 2.3 X = (x1 , x2 )T ∈ R2 | x1 = 1, 0 < x2 ≤ 1 的相对内点集合 ri(X ) = } { (x1 , x2 )T ∈ R2 | x1 = 1, 0 < x2 < 1 . 解: 任取 X 其中一点, 如 x0 = (1, 1)T ∈ X , 再取不同于 x0 的一点, 如 x1 = (1, 0.5)T ∈ X , 则得到一个非零的方向 d = x1 − x0 = (0, 0.5)T . 此 时, 仿 射 线 性 组 合 为 y = x0 + kd = kx1 + (1 − k)x0 , k ∈ R, 表 示 以 x0 为起点沿 d 方向的一条直线. 于是包含 X 的最小仿射空间为 { } A = (x1 , x2 )T ∈ R2 | x1 = 1, x2 ∈ R . 按定义得到相对内点集合的结论. 上述例子说明, 当仿射空间为一维时, 一维区间的开集就是内点集. 32


第二章

基础知识

第二节

集合的凸性与锥

{ } 例 2.4 设 X = X1 ∪ X2 , 其中 X1 = (x1 , x2 )T ∈ R2 | x1 = 1, 0 ≤ x2 < 1 , { } X2 = (x1 , x2 )T ∈ R2 | 2 ≤ x1 , �x2 = 0 的相对内点集合 ri(X ) = ∅. 解: 与上例相同的逻辑, 任取 X 其中一点, 如 x0 = (1, 0)T ∈ X , 再取不同于 x0 的两点, 如 x1 = (1, 0.5)T ∈ X1 和 x2 = (2, 0)T ∈ X2 , 则 得到两个方向 d1 = x1 − x0 = (0, 0.5)T 和 d2 = x2 − x0 = (1, 0)T . 明 显 看 出 d1 和 d2 线 性 无 关, 且 仿 射 线 性 组 合 y = x0 + k1 d1 + k2 d2 = k1 x1 + k2 x2 + (1 − k1 − k2 )x0 , k1 , k2 ∈ R 可以表示 R2 中的任何一点. 因此, 包含 X 的最小仿射空间为 R2 . 于是, X 中的任何一点都不是相对内点. 上述例子说明, 当仿射空间为 2 维时, 二维的圆邻域可以照搬使用. 对给定 a ∈ Rn 且 a ̸= 0 和 b ∈ R, { H=

x ∈ Rn | aT x =

n ∑

} ai xi = b

i=1

称为超平面 (hyperplane). 超平面为一个仿射空间. 半空间 (half space)定 义为 { } n ∑ H+ = x ∈ Rn | aT x = ai xi ≤ b . i=1

一个超平面将空间分成两个半空间, 但由于上式中 a, b 取值的任意性, 任何 一个半空间都可以写成上面的形式. 对给定的两个集合 X1 和 X2 , 若超平面 H 使得 aT x ≥ b, ∀x ∈ X1 和 aT x ≤ b, ∀x ∈ X2 , 称超平面 H 分离 (separation)集合 X1 和 X2 . 若存在 x1 ∈ X1 使得 aT x1 > b 或 x2 ∈ X2 使得 aT x2 < b, 称超平面 H 真分离集合 X1 和 X2 . 超平面真分离 (proper separation)两个集合的另一个 几何解释是:超平面分离 X1 和 X2 且这两个集合中的点不全包含在这个 超平面内. { } 引理 2.5 设 X 为 Rn 的一个内点非空的集合, H = x ∈ Rn | aT x = b 为 Rn 的任何一个超平面, 则一定存在 x¯ ∈ X 使得 aT x¯ ̸= b. 证明:因为 X 内点非空, 所以 dim(X ) = n. 反证法假设 aT x = b, ∀x ∈ X , 因 dim(H) = n − 1, 得到 dim(X ) ≤ n − 1, 矛盾. 结论得证.  相对内点是优化问题中经常遇到的一个概念, 如对线性规划的约束集 合 F = {x ∈ R2 | x1 + x2 = 1, x1 ≥ 0, x2 ≥ 0}, 虽说是 R2 中的一个集合, 但 33


第二节 集合的凸性与锥

第二章

基础知识

它的维数只有一维, 等同于可行解集合 F1 = {x ∈ R | x1 ≤ 1, x1 ≥ 0} 的变 形. 在 R 中, F1 是有内点的一个集合, 故 F 在 R2 中有相对内点. 将以上 有关内点的性质直接推广到相对内点, 我们有以下结论. 引理 2.6 设 X 为 Rn 的一个非空集合且 A 为包含 X 的最小仿射空间, { } ri(X ) ̸= ∅. 对任意超平面 H = x ∈ Rn | aT x = b 满足 dim(H ∩ A) ≤ dim(A) − 1 时, 则存在 x¯ ∈ X 使得 aT x¯ ̸= b. 同上引理证明一样, 利用维数的关系可得. 集 合 X ⊆ Rn 的 支 撑 平 面 (supporting hyperplane) 为 一 个 超 平 面 H = {x ∈ Rn | aT x = b}, 满足 aT y ≥ b, ∀ y ∈ X 和cl(X ) ∩ H ̸= ∅.

集合的凸性与锥 线性空间 Rn 的凸集 (convex set)X 定义如下:任意 x1 ∈ X 和 x2 ∈ X 及 0 ≤ λ ≤ 1 的实数, 都有 λx1 + (1 − λ)x2 ∈ X . 凸集的几何直观见图2.1, 左侧为凸集, 右侧不是凸集. 包含一个集合 X 的最小凸集称为 X 凸包 (convex hull), 记成 conv(X ), 等价为 } { i 存在正整数m, λ ≥ 0 和y ∈ X , i = 1, . . . , m, i . conv(X ) = x ∈ Rn | ∑ ∑m i 使得 m i=1 λi = 1, x = i=1 λi y

图 2.1: 凸集与非凸集 34


第二章

基础知识

第二节

集合的凸性与锥

为了分析凸集的性质, 先给出点到集合的距离定义及基本引理. z ∈ Rn 到集合 X 的点到集合距离 (distance between a point and a set)定义为: dist(z, X ) = inf {∥z − x∥ | x ∈ X } . 引理 2.7 设 X ⊆ Rn 为非空闭凸集且 z ∈ Rn , 则存在唯一一点 x¯ ∈ X 满 足 dist(z, X ) = ∥z − x¯∥ = min {∥z − x∥ | x ∈ X } , 且 (z − x¯)T (x − x¯) ≤ 0, ∀x ∈ X . 证明:若 z ∈ X , 结论成立. 否则 z ∈ / X , 则 X 中任取一点到 z 的距离 为 dist(z, X ) 的上界. 由此存在一个收敛点列 {xk | k = 1, 2, . . .} ⊆ X 满足 xk → x¯, k → ∞, x¯ ∈ X 且 ∥z − x¯∥ = min{∥z − x∥ | x ∈ X } > 0, 存在性得 证. 当 x¯ 满足 dist(z, X ) = ∥z − x¯∥, 对任意 x ∈ X , 令 xˆ = αx + (1 − α)¯ x 且 0 < α ≤ 1, 则 ∥z − x¯∥2 ≤ ∥z − xˆ∥2 = ∥z − x¯∥2 + 2α(z − x¯)T (¯ x − x) + α2 ∥x − x¯∥2 . 有 2(z − x¯)T (¯ x − x) + α∥¯ x − x∥2 ≥ 0 对所有 0 < α ≤ 1 成立, 也就推出 (z − x¯)T (x − x¯) ≤ 0. 反证法证唯一性, 若存在 x∗ ∈ X 且 x∗ ̸= x¯ 满足 ∥z − x∗ ∥ = min{∥z − x∥ | x ∈ X }. 由上面的推导, (¯ x − x∗ )T (¯ x − x∗ ) = (z − x¯)T (x∗ − x¯) + (z − x∗ )T (¯ x − x∗ ) ≤ 0, 与 x∗ ̸= x¯ 矛盾. 因此, 唯一性得证.  引理 2.8 设 X ⊆ Rn 为非空凸集且 z ∈ / cl(X ), 则存在 a ̸= 0, a ∈ Rn , b ∈ R 决定的一个超平面 { } H = y ∈ Rn | aT y = b 满足 aT x ≥ b > aT z, 对任意x ∈ X 成立. 35


第二节 集合的凸性与锥

第二章

基础知识

证明:由于 z ∈ / cl(X ), 故 z 到 cl(X ) 的距离大于 0. 设 x¯ 为 cl(X ) 到 z 的距离最小点, 则有 (z − x¯)T (z − x¯) > 0, 再利用引理2.7, 则有 (z − x¯)T (x − x¯) ≤ 0, ∀x ∈ X . 综合得到: (¯ x − z)T x ≥ (¯ x − z)T x¯ > (¯ x − z)T z, 对任意x ∈ X 成立. 令 a = x¯ − z 和 b = (¯ x − z)T x¯, 即得结论.  定理 2.9 设 X ⊆ Rn 为一个非空凸集, 则在其边界集 bdry(X ) 上的任何一 点 y 均存在一个 a ̸= 0, a ∈ Rn , b ∈ R 的支撑超平面 {x ∈ Rn | aT x = b} 使 得 aT y = b 且 aT x ≥ b 对 ∀x ∈ X 成立. 证明: 任意取定 bdry(X ) 上的一点 y, 可构造 cl(X ) 外的点列 {z k | k = 1, 2, . . .} 收敛到 y. 由引理2.8, 存在 ak , bk 使得 (ak )T x ≥ bk > (ak )T z k , 对任意x ∈ X 成立. ) ( k a , 则每一个分量都有界, 由此存在一 处理平面方程系数 √ k 1T k 2 (a ) a +bk bk 个向量列 {ak } 的一个子列 {aki } 收敛到 a ∈ Rn 和 b = limi→∞ (aki )T z ki ∈ R, 满足 aT x ≥ b = aT y, 对任意x ∈ X 成立. 结论得证.  关于集合的运算, 显然有下列性质. 引理 2.10 若 X1 , X2 都是凸集, 则 X1 + X2 和 X1 × X2 都是凸集. 若 ∩ X1 , X2 , · · · 的每一个集合是凸集, 则 ∞ i=1 Xi 为凸集. 若 X1 , X2 , . . . 的每一 ∩∞ 个集合是闭集, 则 i=1 Xi 为闭集. 若 X1 , X2 , · · · 的每一个集合是开集, 则 ∪∞ i=1 Xi 为开集. 定理 2.11 若两个非空凸集 X1 ⊆ Rn 和 X2 ⊆ Rn 的交集 X1 ∩ X2 = ∅, 则存 在一个 a ̸= 0, a ∈ Rn , b ∈ R 的超平面 {x ∈ Rn | aT x = b} 分离 X1 和 X2 . 36


第二章

基础知识

第二节

集合的凸性与锥

证明: 令 X = X1 − X2 , 由引理2.10得到 X 为凸集. 再由交集为空集的特 性, 得到 0 ∈ / X , 依据引理2.8和定理2.9, 存在一个 c ̸= 0, c ∈ Rn , d ∈ R 的超 平面 {x ∈ Rn | cT x = d} 使得 cT 0 = 0 ≤ d 和 cT x ≥ d 对 ∀x ∈ X 成立. 由 cT x ≥ d ≥ 0 对 ∀x ∈ X 成立. 等价于 cT x1 ≥ cT x2 对 ∀x1 ∈ X1 和 ∀x2 ∈ X2 . 于是对任意 x2 ∈ X2 , cT x2 是 cT x1 对 ∀x1 ∈ X1 有下界控制. 同 理对任意 x1 ∈ X2 , cT x1 是 cT x2 对 ∀x2 ∈ X2 有上界控制. 因此分别得到 inf cT x1 存在并记为 b1 和 sup cT x2 存在并记为 b2 , 且满足 b1 ≥ b2 和 1 x ∈X1

x2 ∈X2 T 2

inf c x = b1 ≥ b2 = sup c x . T

1

x1 ∈X1

x2 ∈X2

取 a = c, b 为 [b2 , b1 ] 中的任何一个值, 重新构造一个超平面 H = {x ∈ R | aT x = b}, 则有 n

aT x ≥ b, ∀x ∈ X1 , aT x ≤ b, ∀x ∈ X2 . 得到结论.  定理 2.12 两个非空集 X1 ⊆ Rn 和 X2 ⊆ Rn 可以被超平面真分离的充要 条件为存在一个向量 a ∈ Rn , 使得 (i) infx∈X1 aT x ≥ supx∈X2 aT x, (ii) supx∈X1 aT x > infx∈X2 aT x. 证明:“必要性”. 由可分离的定义, 易知存在 a 使得 (i) 成立. 假设对所 有使得 (i) 成立的 a, (ii) 不正确, 则 sup aT x ≤ inf aT x ≤ sup aT x ≤ inf aT x. x∈X1

x∈X2

x∈X2

x∈X1

又由 inf aT x ≤ sup aT x

x∈X1

x∈X1

得到 sup aT x = inf aT x = sup aT x = inf aT x. x∈X1

x∈X2

x∈X2

x∈X1

这表明 X1 和 X2 在超平面 aT x = infx∈X1 aT x 内. 这样, 不存在真分离 X1 和 X2 的超平面, 矛盾. “充分性”. 由于 X1 和 X2 非空, 则 infx∈X1 aT x 和 supx∈X2 aT x 存在, 取 b = infx∈X1 aT x, 则 aT x = b 分离两个集合. 若 X1 中有一点没有落入在超平 37


第二节 集合的凸性与锥

第二章

基础知识

面 aT x = b 内, 则结论成立. 否则, X1 落入在超平面 aT x = b 内, 由 (ii) 存 在一点 x ∈ X2 使得 aT x < b, 结论成立.  由于相对内点较为抽象, 而内点的概念相对容易理解, 下面给出仿射空 间位移法 (displacement for an affine space), 以建立它们之间的联系. 设 X ⊆ Rn 为任一非空集合, 包含 X 的最小仿射空间记为 A. 任取一 点 x0 ∈ A, 记 A¯ = A − {x0 } = {x − x0 | x ∈ A}, X¯ = X − {x0 } = {x − x0 | ¯ 在 A¯ 这个线 x ∈ X }. 由仿射空间的定义, A¯ 为一个线性空间, 而 X¯ ⊆ A. 性空间中, 沿袭 Rn 中的范数(内积)后, A¯ 成为一个有度量的线性空间, 即欧氏空间. 这个方法称为仿射空间位移方法. 这里需要读者对线性代数 的线性空间与子空间有一定了解, 可以参考 [26]. 在采用仿射空间位移方法 后, 有如下一些结论. 可按凸集的定义验证, 得到当 X ⊆ Rn 为任一非空凸集, 则有 X¯ 为 A¯ 中的非空凸集, 反之也正确. 由于 A¯ 中沿用 Rn 中的范数(内积). 按相对内点的定义验证, 得到 当 x 为 X 的一个相对内点, 则 x − x0 为 X¯ 的一个在线性空间 A¯ 的内点. 基于 A¯ 中沿用 Rn 中的范数(内积), 反过来在 A¯ 中的一个球形邻域可以 自然扩充到 Rn 中的一个球形邻域. 当对任意一点 x¯ ∈ A¯ 通过 x¯ + x0 的位 移返回到 Rn 中后, 以上的结论反之也同样成立. 同样, Rn 中的任意超平面方程 H = {x ∈ Rn | aT x = b} 经位移得到 ¯ = {x − x0 ∈ Rn | aT (x − x0 ) = b − aT x0 }. 对于线性空间 A, ¯ 存在 A ∈ H M(m, n), 使其等价于一个零空间 N (A) = {x − x0 ∈ Rn | A(x − x0 ) = 0}, 于是超平面经过位移限定在 A¯ 为 { } ¯ ∩ A¯ = x − x0 ∈ Rn | A(x − x0 ) = 0, aT (x − x0 ) = b − aT x0 . H 不妨记 A(x − x0 ) = 0 的自由变量为 x1 − x01 , x2 − x02 , . . . , xr − x0r , 其中 r = dim(X ), 则可以通过方程组 A(x − x0 ) = 0 解出 x − x0 其他变量与 ¯ ∩ A¯ = x1 − x01 , x2 − x02 , . . . , xr − x0r 之间的线性关系. 当 H ̸ ∅ 时, 将上面方 T 0 T 0 ¯ 程组解的关系带入 a (x − x ) = b − a x 中, 得到在 A 中的一个超平面方 程. 于是可以这样认为, Rn 中的任意超平面方程限定在 A¯ 中还是一个超平 面方程. 对 A¯ 中的任何一个超平面, 一定可以用方程 c1 (x1 − x01 ) + c2 (x2 − x02 ) + · · · + cr (xr − x0r ) = d 表示, 将未出现变量系数看成 0, 明显是 Rn 的一个超 平面方程. 38


第二章

基础知识

第二节

集合的凸性与锥

依据上述讨论, 为了直观和便于理解, 对与相对内点有关性质的研究就 可以采用仿射空间位移的办法处理, 在位移后按与内点相关的性质研究. 这 将是我们后续一些证明中常用到的技巧. 考察凸集与相对内点的关系, 我们先给出如下引理. 引理 2.13 设 X ⊆ Rn 为非空凸集, 则 ri(X ) ̸= ∅. 证明:当 X 中只有一点, 则由定义得到 ri(X ) = X ̸= ∅. 当 r = dim(X ) ≥ 1 时, 由仿射空间位移法知 X 中存在 r + 1 个仿射线性无关的点, 任意选取 X 中 r + 1 个仿射线性无关的点 {x1 , x2 . . . , xr+1 }, 则对任意 λi > 0, i = ∑ ∑r+1 i 1, 2, . . . , r + 1 且 r+1 i=1 λi = 1, 有 i=1 λi x ∈ ri(X ).  引理 2.14 设 X 为 相 对 内 点 非 空 凸 集, y ∈ cl(X ) 且 z ∈ ri(X ), 则 有 x = αy + (1 − α)z ∈ ri(X ), ∀0 ≤ α < 1. 证明: 当 dim(X ) = 0 时, 则 X 中只有一点, 结论成立. 当 dim(X ) = 1 时, 则凸集 X 中只有一线段, 则线段除边界点外全部为相对内点, 结论成立. 当 dim(X ) ≥ 2 时, 设包含 X 的最小仿射空间为 A. 对 y ∈ cl(X ), z ∈ ri(X ) 和 x = αy + (1 − α)z, ∀0 ≤ α < 1, 明显当 α = 0 时结论成立. 而对给定 0 < α < 1 和对应的 x = αy + (1 − α)z, 存在 δ > 0 使得 N (z, δ) ∩ A ⊆ X , 并令 { } x − (1 − α)w Y = x¯ | x¯ = , w ∈ N (z, δ) ∩ A . α 明显, Y 为仿射空间 A 的一个开集且 y = x−(1−α)z ∈ Y. 再由 y ∈ cl(X ), α 则存在 p ∈ X 使得 p ∈ Y, 由此推出存在 w¯ ∈ N (z, δ) 使得 x = αp+(1−α)w. ¯ 令 Z = {˜ x | x˜ = αp + (1 − α)w, w ∈ N (z, δ) ∩ A} , 则 Z 是仿射空间 A 的一个开集. 另由 p ∈ X 和 w ∈ N (z, δ) ∩ A ⊆ X 得 到 x ∈ ri(X ). 综合以上讨论我们得到引理的结论.  定理 2.15 设 X 为非空凸集, 则 cl(ri(X )) = cl(X ) 和 ri(cl(X )) = ri(X ). 39


第二节 集合的凸性与锥

第二章

基础知识

证明:明显有 ri(X ) ⊆ X , 得到 cl(ri(X )) ⊆ cl(X ). 反之, 当 X 中只有一 点时, 按定义这一点为相对内点, 故 cl(ri(X )) = cl(X ). 当 X 中至少有 两个不同的点时, 由凸集的特性其连线在其内, 故 dim(ri(X )) ≥ 1. 任取 y ∈ cl(X ), 下面证明存在 ri(X ) 的点列 {xi | i = 1, 2, . . .} 收敛到 y, 这样则 得到 y ∈ cl(ri(X )). 对任取 y ∈ cl(X ) 和任意选取一点 z ∈ ri(X ), 由引理2.14得到 x = αy + (1 − α)z ∈ ri(X ), ∀0 ≤ α < 1, 所以存在 xi 充分接近 (取 α 尽量接近 1)y, 故得到 y ∈ cl(ri(X )), 即 cl(X ) ⊆ cl(ri(X )). 所以 cl(X ) = cl(ri(X )) 成 立. 由于分别包含 X 和 cl(X ) 的最小仿射空间相同, 按相对内点的定义, 对任意 x ∈ ri(X ), 有 x ∈ ri(cl(X )), 即 ri(cl(X )) ⊇ ri(X ). 现证明 ri(cl(X )) ⊆ ri(X ). dim(X ) = 0 的情形为一点, 明显成立. 同样 考虑 dim(X ) ≥ 1 的情形. 对 x ∈ ri(cl(X )), 任取一点 z ∈ ri(X ) 且 z ̸= x, 因 cl(X ) 为凸集, 所以 x 与 z 的连线点都属于 cl(X ). 由 x ∈ ri(cl(X )), 所 以存在 δ > 0 使得 x + δ(z − x) ∈ cl(X ) 和 x − δ(z − x) ∈ cl(X ). 因此, 存 在 µ = 1 + δ, 满足 y = µx + (1 − µ)z ∈ cl(X ), 得到 x=

1 µ−1 y+ z. µ µ

根据 z ∈ ri(X ), y ∈ cl(X ) 和 0 < µ1 < 1 及引理2.14的结论, 有 x ∈ ri(X ). 所以, ri(cl(X )) ⊆ ri(X ). 综合得 ri(cl(X )) = ri(X ). 结论得证.  对给定的一个 A ∈ M(m, n), 做 A : x ∈ Rn 7→ Ax ∈ Rm 映射, 则对任意 x1 , x2 ∈ Rn 和任意 k1 , k2 ∈ R 满足 A(k1 x1 + k2 x2 ) = k1 Ax1 + k2 Ax2 , 称 A 为一个线性变换. 符号 AX 表示集合 X ⊆ Rn 线性变换后的点集. 定理 2.16 设 X 为 Rn 中一个非空凸集, A 是 m × n 矩阵, 则有 ri(AX ) = A(ri(X )). 证明:不难验证 AX 为非空凸集. 40


第二章

基础知识

第二节

集合的凸性与锥

因为 A 是线性映射, 不难验证 A(ri(X )) ⊆ AX ⊆ A(cl(X )). 再根据定理2.15进一步得到 A(cl(X )) = A(cl(ri(X ))) ⊆ cl(A(ri(X ))), 其中定理2.15保证等号的成立. 于是有 cl(AX ) ⊆ cl(A(ri(X ))), 加之明显 A(ri(X )) ⊆ AX , 所以, cl(AX ) = cl(A(ri(X ))). 再由定理2.15, ri(AX ) = ri(cl(AX )) = ri(cl(A(ri(X )))) = ri(A(ri(X ))) ⊆ A(ri(X )). 对任意 y ∈ A(ri(X )) 和 z ∈ AX , 则有 y ′ ∈ ri(X ) 和 z ′ ∈ X 使得 y = Ay ′ 和 z = Az ′ . 因此, 与定理2.15证明中相同的原因, 存在有 µ > 1 使得 µy ′ + (1 − µ)z ′ ∈ X , 得到 A(µy ′ + (1 − µ)z ′ ) = µy + (1 − µ)z ∈ AX , 所以 w = µy + (1 − µ)z ∈ AX . 由任何凸集的相对内点非空的结论, 当取 z ∈ ri(AX ) 时, 则有 0 < µ1 < 1, 由引理2.14得到 y = wµ + (µ−1)z ∈ ri(AX ). µ 于是 A(ri(X )) ⊆ ri(AX ). 整合得到 A(ri(X )) = ri(AX ).  定理 2.17 设 X1 和 X2 为非空凸集, 则 ri(X1 × X2 ) = ri(X1 ) × ri(X2 ) 和 ri(X1 + X2 ) = ri(X1 ) + ri(X2 ). 证明: 由引理2.10, X1 × X2 为非空凸集. 首先, 我们证明 ri(X1 × X2 ) = ri(X1 ) × ri(X2 ). 设 A1 和 A2 分别是包含 X1 和 X2 最小仿射空间, 根据空间维数关系 dim(A1 × A2 ) = dim(A1 ) + dim(A2 ), 则 A1 × A2 是包含 X1 × X2 的最小仿 射空间. ( ) x1 任取 x = ∈ ri(X1 × X2 ), 则存在 δ > 0 使得 x2 N (x, δ) ∩ A1 × A2 ⊆ X1 × X2 .

(2.2)

得到 N (x1 , δ) ∩ A1 ⊆ X1 和 N (x2 , δ) ∩ A2 ⊆ X2 , 有 xi ∈ ri(Xi ), i = 1, 2, 所 以 ri(X1 × X2 ) ⊆ ri(X1 ) × ri(X2 ). 41


第二节 集合的凸性与锥

第二章

基础知识

反过来, 对 i = 1, 2 的 xi ∈ ri(Xi ), 则存在 δi > 0 使得 N (xi , δi ) ∩ Ai ⊆ Xi , 取 δ = min{δ1 , δ2 }, 就有 (2.2) 式成立, 所以 ri(X1 ×X2 ) ⊇ ri(X1 )×ri(X2 ). 因此得到我们需要的结论. 取 A = [I I], 在 R2n 上作如下线性变换 ( ) x1 x= 7→ Ax = x1 + x2 ∈ Rn . x2 由定理2.16及上面的证明, 则有 ri(A(X1 × X2 )) = ri(X1 + X2 ) = A(ri(X1 × X2 )) = ri(X1 ) + ri(X2 ). 结论得证.  定理 2.18 对两个非空凸集 X1 和 X2 , 存在真分离超平面的充分必要条件 为 ri(X1 ) ∩ ri(X2 ) = ∅. 证明: “必要性”. 当两个非空凸集 X1 和 X2 存在真分离时, 令 X = X1 −X2 , 则易验证 X 为凸集. 由定理2.12, 存在真分离时一定存在 a ∈ Rn 满足 (i) infx∈X1 aT x ≥ supx∈X2 aT x, (ii) supx∈X1 aT x > infx∈X2 aT x. 取 X 的支撑超平面 H = {x | aT x = 0}. 记包含 X 的最小仿射空间为 A. 于是可知, aT x ≥ 0, ∀x ∈ X 且存在 x¯ ∈ X 使得 aT x¯ > 0. 采用前面讨论的仿射空间位移的方法, 于是对相对内点的研究可以视 同内点的研究. 在这样的背景下, 当 H ∩ A = ∅ 时, 由 0 ∈ H 得到 0 ∈ / A, 进一步得到 0 ∈ / X , 也就有 0 ∈ / ri(X ). 当 H ∩ A ̸= ∅ 时, 用反证法证明. 假设 0 ∈ ri(X ), 由上面的讨论存在 x¯ ∈ X 使得 aT x¯ > 0, 则存在充分小的 δ > 0 满足 y¯ = 0 − δ¯ x ∈ X . 由此得到 T T a y¯ = −δa x¯ < 0, 与支撑超平面矛盾. 矛盾说明假设错误, 得到 0 ∈ / ri(X ) 由定理2.17, 有 ri(X ) = ri(X1 ) − ri(X2 ), 而 0 ∈ / ri(X ) 推出 ri(X1 ) ∩ ri(X2 ) = ∅. “充分性”. 当 ri(X1 ) ∩ ri(X2 ) = ∅, 令 X = X1 − X2 . 由引理2.10得到 X 为非空凸集. 设包含 X 的最小仿射空间为 A. 由 ri(X1 ) ∩ ri(X2 ) = ∅, 得到 0 ∈ / ri(X ), 则 0 ∈ bdry(X ) 或 0 ∈ / cl(X ). 当 0 ∈ / cl(X ) 时, 由引理2.8, 存在超平面 H = {x | aT x = b} 使得 aT x ≥ b > 0, ∀x ∈ X , 等价于 aT x1 > aT x2 , ∀x1 ∈ X1 , ∀x2 ∈ X2 . 上面 (i)(ii) 成立, 故存在真分离. 42


第二章

基础知识

第二节

集合的凸性与锥

当 0 ∈ bdry(X ) 时, 讨论比较复杂. 类似以前的逻辑, 在仿射空间 A 位移后, 有下面的结论. 在仿射空间 A 中, 由定理2.9, 存在一个支撑超平 面 H = {x | aT x = 0} 使得 aT x ≥ 0, ∀x ∈ X , 等价于 aT x1 ≥ aT x2 , ∀x1 ∈ X1 , ∀x2 ∈ X2 . 再由引理2.5, 这个超平面与仿射空间交集的维数小于仿射空 间即 X 的维数, 即存在 x¯ = x¯1 − x¯2 , x¯1 ∈ X1 , x¯2 ∈ X2 , 使得 aT x¯1 > aT x¯2 , 这是一个真分离. 结论得证.  真分离的几何解释为:超平面 H 将两个集合 X1 和 X2 分离且这两个 集合没有同时落在该超平面内. 此时, 我们会对支撑超平面产生相同的疑 问:若 H 为集合 X 的一个支撑超平面, X 是否会落在 H 内? 当 X ⊆ Rn 且 dim(X ) = r < n 时, 设 A 为包含 X 的最小仿射空间, 则有 dim(A) = dim(X ) = r. 于是, 任取 x0 ∈ A, 有 A − x0 = {y | y = x − x0 , x ∈ A} 为 Rn 中一个 r 维线性 (子) 空间, 于是利用 A − x0 中任 何 r 个线性无关的向量可以非常容易地构造一个超平面 H 包含 A, 也就 包含 X . 这样的支撑超平面称为平凡的. 若 H 是 X 的支撑超平面, 但 X 不全部落在 H 中, 则称 H 为 X 的非平凡支撑超平面 (non-trial supporting hyperplane). 下面给出一个更强的结论. 定理 2.19 设 X 为一个非空凸集, 对任意 x0 ∈ / ri(X ), 存在一个非平凡支撑 T T T 0 超平面 a x = b 使得 a x ≥ b, ∀x ∈ X , a x = b 且 aT x > b, ∀x ∈ ri(X ). 证明: 记包含 X 的最小仿射空间为 A, 采用仿射空间位移的方法, 根据仿 射空间位移的方法的讨论和定理2.9, 在 A 中存在一个 dim(A) − 1 的超平 面, 扩大到 Rn 中记为 H = {x ∈ Rn | aT x = b}, 使得 aT x ≥ b, ∀x ∈ X 和 aT x0 = b. 由于 dim(H ∩ A) = dim(A) − 1, 对任意 x ∈ ri(X ), 则 x ∈ / H ∩ A. 故进一步有 aT x > b, ∀x ∈ ri(X ).  线性规划的可行解区域由有限个半空间交集组成, 所交的集合称为 多面体 (polyhedron). 当多面体有界时, 特称这个集合为多胞形 (polytope), 包含多面体的最小仿射空间的维数称为多面体的维数 (dimension of polyhedron). 对给定的非空多面体 X = {x ∈ Rn | aTi x ≤ bi , i = 1, 2, . . . , m}, 容易验 证其为凸集. 更进一步, 有下列结论. 定理 2.20 设 C 和 D 为 Rn 中的多面体, 则 (i) C ∩ D 为 Rn 中的多面体; 43


第二节 集合的凸性与锥 {( (ii) C × D =

x y

第二章

)

基础知识

} ∈ R2n | x ∈ C, y ∈ D

为 R2n 中的多面体;

(iii) C + D 为 Rn 中的多面体. 证明:我们用线性代数的方法证明. C 和 D 为 Rn 中的多面体, 线性约束的 表示形式为 } { C = x ∈ Rn | Ax ≤ b1 , } { D = x ∈ Rn | Bx ≤ b2 , 其中 A 和 B 分别为 m × n 和 p × n 矩阵. 明显

{ C∩D =

(

x ∈ Rn |

A B

)

( x≤

b1 b2

)}

是一个多面体, {( C×D =

x y

) ( |

A 0 0 B

)(

x y

)

( ≤

b1 b2

)}

为 R2n 中的多面体. 多面体还可等价地表示成点集的凸组合和方向的非负线性组合 (参考 [41] 的 Theorem 19.1), 而线性变换 σ : x ∈ R2n → y = Lx ∈ Rn , 其中 L 是 一个 n × 2n 矩阵, 保持线性性, 因此作线性变换 ( ) ( ) ( ) x x x σ: → x + y = [I I] ,∀ ∈ C × D. y y y 由前面结论 C × D 是一个多面体, 因此是一些顶点集的凸组合和方向的非 负线性组合, 经过线性变换后还保持映射顶点集的凸组合和映射后方向的 非负组合, 因此, C + D 为多面体. 而 C + D 全是 n 维向量, 所以, C + D 为 Rn 中的多面体.  线性空间 Rn 的集合 K ⊆ Rn 是锥 (cone)的定义如下: ∀x ∈ K 和λ ≥ 0 都满足λx ∈ K. 若还满足 K ∩ −K = {0}, 44


第二章

基础知识

第二节

集合的凸性与锥

就称为尖锥 (pointed cone);当 int(K) ̸= ∅ 时, 称为实锥 (solid cone); 进一步当一个锥同时具有尖、实、闭和凸性, 则 称其为真锥 (proper cone). 例 2.5 集合 { } K = (x, y)T ∈ R2 | x ≥ 0, y = 0} ∪ {(x, y)T ∈ R2 | x = 0, y ≥ 0 , 既不是实锥也不是凸锥, 但是闭锥和尖锥. 对给定集合 X ⊆ Rn , 其中任何 m 个点 {x1 , x2 , . . . , xm } ⊆ X 的锥组 ∑ i 合 (conic combination)定义为: m i=1 λi x , 其中 λi ≥ 0, i = 1, . . . , m; 锥包 (conic hull)定义为: { } cone(X ) = x ∈ Rn | x为X 中有限个点的锥组合 . 锥有如下简单性质. 定理 2.21 设 K1 , K2 , . . . , Km 为欧氏空间的锥集合, 若 K1 , K2 , . . . , Km 同 时为 ( 尖、实、闭或凸 ) 锥的时候, 则它们的笛卡尔积为锥且为 ( 尖、实、 闭或凸 ) 锥; 交集运算分别保持锥及锥的尖、闭或凸的性质. 证 明:仅 证 明 锥 的 笛 卡 尔 积 运 算 保 持 实 锥 的 特 性, 其 它 不 难 得 证. 若 K1 , K2 , . . . , Km 都是实锥, 则对每一个 1 ≤ i ≤ m, 存在 xi ∈ Ki 和 ϵi > 0, 使得 N (xi ; ϵi ) ⊆ Ki . 取 ϵ = min1≤i≤m ϵi , 当 y = y 1 × y 2 × . . . × y m ∈ N (x1 × x2 × . . . × xm ; ϵ) 时, 对任意 i 有 ∥y i − xi ∥ ≤ ∥(y 1 × y 2 × . . . × y m ) − (x1 × x2 × . . . × xm )∥ < ϵ ≤ ϵi , 所以 y ∈ K1 × K2 × . . . × Km , int(K1 × K2 × . . . × Km ) ̸= ∅ 为实锥.  当 K1 , K2 , . . . , Km 分别为实锥时, 它们的交集不一定还是实锥, 示例如 下: 例 2.6 当 K1 = {(x, y)T ∈ R2 | x ≥ 0, y ≥ 0, x − y ≥ 0} 和 K2 = {(x, y)T ∈ R2 | x ≥ 0, y ≥ 0, x − y ≤ 0} 时, K1 , K2 分别是真锥, 但它们的交集 K1 ∩ K2 = {(x, y)T ∈ R2 | x ≥ 0, y ≥ 0, x − y = 0} 不是实锥. 45


第二节 集合的凸性与锥

第二章

基础知识

现在来熟悉一些以后我们经常用到的锥. 例 2.7 第一卦限锥: K = Rn+ = {x ∈ Rn | xi ≥ 0, i = 1, ..., n},

(2.3)

示意图 2.2 从左至右分别表示 R+ , R2+ 和 R3+ 三个锥.

图 2.2: R1+ , R2+ 和 R3+ n 维二阶锥 (second order cone), 也称之为冰淇淋锥 (ice cream cone)或 Lorentz 锥 (Lorentz cone): { } √ n n 2 2 K = L = x ∈ R | x1 + · · · + xn−1 ≤ xn , (2.4) 示意图 2.3 从左至右分别表示 L2 和 L3 两个锥.

图 2.3: L2 和 L3 46


第二章

基础知识

第二节

集合的凸性与锥

n 阶半正定锥 (positive semi − definite cone): K = S+n = {X ∈ S n | X ≽ 0},

(2.5)

2 阶半正定锥图形见示意图 2.4.

图 2.4: S+2 在半正定锥图形示意图 2.4 中, 我们将决策变量 X ∈ S 2 转换到 vec(X) ∈ R3 ( 见本章第一节末尾的定义 ) 中画出了该图形. 在第一章的第一节, 线性规划决策变量的定义域就是第一卦限锥. 这个 锥具有非常好的特性, 是真锥. 在第一章的第二节 Torricelli 点问题的定义域为 L3 × L3 × L3 , 是三 个二阶锥的笛卡尔积. 由定理2.21的结论, 笛卡尔积具有非常好的保持尖、 实、闭或凸的性质, 下面我们先讨论二阶锥的一些特性. 首先, 明显有 0 ∈ Ln ⊆ Rn , 当 x = (x1 , x2 , . . . , xn )T ∈ Ln ∩ (−Ln ) 时, 得到

√ √

x21 + x22 + . . . + x2n−1 ≤ xn ,

x21 + x22 + . . . + x2n−1 ≤ −xn . 47


第二节 集合的凸性与锥 有

第二章

基础知识

√ x21 + x22 + . . . + x2n−1 = 0,

即 x = 0, 是尖锥. 其次, 对 Ln 中点 x0 = (0, 0, . . . , 0, 1) 和 ϵ = n1 , 对 √ 任意 ∥x − x0 ∥ = x21 + x22 + . . . + x2n−1 + (xn − 1)2 < ϵ 时, 有 | xi |< n1 , i = 1, 2, . . . , n − 1 和 | xn − 1 |< n1 . 由此得到 n−1 < xn < n+1 . 于是有 n n √ √ n−1 n−1 2 2 2 x1 + x2 + . . . + xn−1 < ≤ < xn , n n 即 x ∈ Ln , 所以它是实锥. 闭性可由极限点的概念得到. 最后, 我们来 证明它具有凸性. 设 x = (x1 , x2 , . . . , xn )T , y = (y1 , y2 , . . . , yn )T ∈ Ln 和 0 ≤ λ ≤ 1, 则有 √ x21 + x22 + . . . + x2n−1 ≤ xn ,

2 y12 + y22 + . . . + yn−1 ≤ yn ,

于是推导出下式 √ [λx1 + (1 − λ)y1 ]2 + [λx2 + (1 − λ)y2 ]2 + . . . + [λxn−1 + (1 − λ)yn−1 ]2 √ ∑ ∑n−1 ∑n−1 2 2 2 = λ2 n−1 i=1 xi + 2λ(1 − λ) i=1 xi yi + (1 − λ) i=1 yi √ ≤ λ2 x2n + 2λ(1 − λ)xn yn + (1 − λ)2 yn2 = λxn + (1 − λ)yn . 所以, 有 λx + (1 − λ)y ∈ Ln . 综合以上讨论, Ln 是真锥. 半正定锥 S+n 是一个真锥. 显然, 0 ∈ S+n ∩ −S+n . 对任意 A ∈ S+n ∩ −S+n , 由 于 xT Ax ≥ 0, −xT Ax ≥ 0 对 任 意 x ∈ Rn 成 立, 推 出 A = 0. 所 以 0 是 S+n ∩ −S+n 的 唯 一 元 素, 即 S+n 为 尖 锥. 实 锥、闭 锥 由 例2.2得 到. 对任意 A, B ∈ S+n , x ∈ Rn 和 0 ≤ λ ≤ 1, 有 xT [λA + (1 − λ)B]x = λxT Ax + (1 − λ)xT Bx ≥ 0 得到凸集的性质. 因此, S+n 是一个真锥. 第一章的第三节协方差阵满足性问题的定义域为 7 阶半正定锥. 例 2.8 对任意非空集合 F ⊆ Rn , 定义 F 集上的非负二次函数锥为   ( )T ( )   1 1 n+1 n DF = U ∈ S | U ≥ 0, ∀x ∈ F ⊆ R .   x x 该锥是实、凸和闭的. 48

(2.6)


第二章

基础知识

第二节

集合的凸性与锥

n+1 容易验证 S+n+1 ⊆ DF , 而 S++ 为一个开集, 故为实锥. 按凸集合的定 义易验证是凸锥. 闭锥可由反证法不难得到. 但是否为尖锥则取决于 F 的 特性.

例 2.9 F = {x ∈ Rn | eT x = 1}, 其中 e = (1, 1, . . . , 1)T , 则 ) ( 2 −eT ∈ DF U= −e 0 满足

(

1 x

)T

( U

1 x

) = 0,

同时 −U ∈ DF , 但 U ̸= 0. 所以, DF 不是一个尖锥.

锥半序 在定义了真锥后, 我们同样可以借助锥诱导出一种半序关系. 首先, 给 出半序关系的定义. 一个 “≥”在集合 Rn 上称为半序 (partial order)关系, 则满足下面性质: 1. 自反性 (reflexivity): a ≥ a 对任意 a ∈ Rn 满足; 2. 反对称性 (antisymmetry): 若 a ≥ b 且 b ≥ a 则 a = b; 3. 传递性 (transitivity): 若 a ≥ b 且 b ≥ c 则 a ≥ c. 由于本书考虑的集合 Rn 为有限维线性(向量)空间, 因此, 有序向量 空间 (ordered vector space)还要求 4. 一致性 (homogeneity): a ≥ b 且 λ ∈ R+ 则 λa ≥ λb; 5. 可加性 (additivity): a ≥ b 且 c ≥ d 则 a + c ≥ b + d. 为什么要有真锥的条件要求?主要是与我们通常理解的不等号关系 相吻合. 如 Rn 是一个锥, 但不是真锥. 定义半序关系 “≥”为 “a ≥ b ⇔ a − b ∈ Rn ”. 这时可以发现, a − b ∈ Rn 和 b − a ∈ Rn 无法得到 a = b, 即 破坏了第 2 条性质. 因此, 我们都是在真锥上讨论半序关系. 49


第三节 对偶集合

第二章

基础知识

对一个真锥 K ⊆ Rn , 定义线性空间 Rn 这样一个半序关系 “≥K ”, 满 足: a ≥K b ⇔ a − b ∈ K. 同样 a ≤K b ⇔ b ≥K a, 也定义一个半序关系 “≤K ”. 我 们 不 逐 一 验 证 以 上 定 义 的 半 序 关 系 的 合 理 性, 仅 以 反 对 称 性 和 一致性的合理性验证为例. 先验证反对称性的成立:由于 a ≥K b 且 b ≥K a, 则有 a − b ∈ K 且 b − a = −(a − b) ∈ K. 因为 K 是尖锥, 得到 a − b = −(a − b) = 0 ∈ K ∩ −K, 得到结论. 下面验证一致性的成立. 当 a ≥ b 且 λ ∈ R+ 时, 得到 (a − b) ∈ K, 再由 K 是锥, 所以 λa − λb = λ(a − b) ∈ K. 在欧氏空间中, 真锥 K ⊆ Rn 的闭性又保证了半序关系的封闭性, 即当 ai ≥K bi , ai → a, bi → b 当i → ∞ ⇒ a ≥K b. 实锥使得我们可以定义严格不等关系 a >K b ⇔ a − b ∈ int(K), 和 a <K b ⇔ b >K a. 锥半序体系是线性锥规划的基础, 也是推广内点算法的重要概念, 我们会在 后续章节中继续讨论.

第三节 对偶集合 欧氏空间 Rn 中, 集合 X ⊆ Rn 的对偶集 (dual set)定义为 X ∗ = {y ∈ Rn | y T x ≥ 0, ∀ x ∈ X }. 若 X ∗ = X , 则称 X 为自对偶集合. 对偶集合有下面简单性质. 50


第二章

基础知识

第三节 对偶集合

定理 2.22 设 X1 和 X2 为 Rn 中两个集合, (i) 当 X1 ⊆ X2 时, 有 X1∗ ⊇ X2∗ ; (ii) 当两个集合都包含 0 点时, (X1 + X2 )∗ = X1∗ ∩ X2∗ . 证明:(i) 易证. 对 ∀y ∈ (X1 + X2 )∗ , 有 y T x ≥ 0对∀x = x1 + x2 , x1 ∈ X1 , x2 ∈ X2 成立. 由定理假设条件有 0 ∈ X1 ∩ X2 , 所以有 y T x1 ≥ 0对∀x1 ∈ X1 成立 且 y T x2 ≥ 0 对∀x2 ∈ X2 成立, 即 (X1 + X2 )∗ ⊆ X1∗ ∩ X2∗ . 对 ∀y ∈ X1∗ ∩ X2∗ , 都有 y T xi ≥ 0 对所有的 xi ∈ Xi , i = 1, 2, 推出 y T (x1 + x2 ) ≥ 0, 所以 y ∈ (X1 + X2 )∗ , 即 (X1 + X2 )∗ ⊇ X1∗ ∩ X2∗ . 于是 (ii) 成立.  尖锥及其对偶锥具有下面性质. 定理 2.23 设 X 是至少包含一个非 0 点的闭凸尖锥且对偶锥的内点集 int(X ∗ ) ̸= ∅, 则 ∀y ∈ int(X ∗ ) 的充分必要条件是:对 ∀x ̸= 0 且x ∈ X 都有 y T x > 0 成立. 证明:“充分性”: 设 Y = {x ∈ X | 0 < r ≤ ∥x∥ ≤ R}, 其中 r < R. 由锥的 性质得到 Y 为一个非空有界闭集. 由充分条件, ϵ = min y T x > 0, 因此存在 x∈Y

δ > 0 使得对任意 y¯ ∈ N (y, δ), 有 y¯T x > 0 对任意 x ∈ Y 成立. 继续由锥的 特性得到 y¯T x ≥ 0 对任意 x ∈ X . 所以, y ∈ int(X ∗ ). “必要性”: 反证. 若存在 x¯ ̸= 0 且 x¯ ∈ X 使得 y T x¯ = 0, 都存在 d = −¯ x 满足 dT x¯ < 0. 则有 (y + αd)T x¯ < 0 对任意 α > 0 成立. 只要 取 α 充分小, y 的任何一个邻域中都有一点 y¯ = y + αd 使得 y¯T x¯ < 0, 与 y ∈ int(X ∗ ) 矛盾. 必要性得证.  考虑集合加运算, 凸锥有以下性质. 定理 2.24 (i) K1 和 K2 是两个凸锥, 则有 K1 ∩ K2 和 K1 + K2 是凸锥; K1 ∪ K2 是锥, 但不一定为凸锥; (ii) K1 和 K2 是实锥, 则有 K1 + K2 是实 锥. 证明:(i) 的证明较为简单. (ii) 设 x1 ∈ int(K1 ) 和 x2 ∈ int(K2 ), 则存在 δ > 0 使得 N (x1 , δ) ⊆ K1 和 N (x2 , δ) ⊆ K2 . 对任意 y ∈ N (x1 + x2 , δ), 则 有 ∥y − (x1 + x2 )∥ = ∥(y − x1 ) − x2 ∥ < δ. 因此得到 y − x1 ∈ N (x2 , δ), 也就 有 y ∈ {x1 } + N (x2 , δ) ⊆ K1 + K2 . 由此推出 N (x1 + x2 , δ) ⊆ K1 + K2 , 得 到 K1 + K2 是实锥的结论.  51


第三节 对偶集合

第二章

基础知识

定理 2.25 设 X 为欧氏空间 Rn 中的非空集合, 则有 (i) X ∗ 是一个闭凸 锥;(ii) X ⊆ (X ∗ )∗ ; (iii) 若 X 是闭凸锥, 则 (X ∗ )∗ = X ; (iv) 若 int(X ) ̸= ∅, 则 X ∗ 是尖锥;(v) 若 X 是闭凸尖锥, 则 int(X ∗ ) ̸= ∅. 证明: (i) 设 y ∈ X ∗ , 则对所有 x ∈ X , 有 y T x ≥ 0. 于是 (λy)T x = λ(y T x) ≥ 0 对任意 x ∈ X 和 λ ≥ 0 成立, 所以 X ∗ 是锥. 凸性按对偶集合的 定义易证. 若点列 {y k ∈ X ∗ | k = 1, 2, · · ·} 以 y ∗ 为极限点, 则由 (y k )T x ≥ 0 对任意 x ∈ X 成立, 保证 (y ∗ )T x ≥ 0 对任意 x ∈ X 成立. X ∗ 是闭锥. (ii) 取任意 x ∈ X , 有 xT y ≥ 0 对任意 y ∈ X ∗ 成立. 按对偶集合的定 义有 x ∈ (X ∗ )∗ , 得到 X ⊆ (X ∗ )∗ . (iii) 对 x ∈ X 和所有 y ∈ X ∗ 都有 y T x ≥ 0, 就有 X ⊆ (X ∗ )∗ . 若 X ̸= (X ∗ )∗ , 因为 X 是非空闭凸锥, 则存在一点 z ∈ (X ∗ )∗ \ X , 再由引理2.7, 有 X 中与 z 距离最小点 x˜ 满足 (z − x˜)T (x − x˜) ≤ 0, 对任意x ∈ X 成立. 推出 (z − x˜)T (z − x˜) = z T (z − x˜) − x˜T (z − x˜) ≤ z T (z − x˜) − xT (z − x˜), 对任意 x ∈ X 成立. 这时有 xT (z − x˜) ≤ 0, 否则由锥的特性, αxT (z − x˜) 随 α 趋于无穷大而趋于无穷大, 得到 z T (z − x˜) 是无界数这样的矛盾. 因此, 由 xT (z − x˜) ≤ 0 及 αxT (z − x˜) 中的 α 可以取任意小的正数, 得到 z T (z − x˜) > 0 ≥ xT (z − x˜). 现令 y = x˜ − z, 得到 y T x ≥ 0 对所有 x ∈ X 成立, 其含义是 y ∈ X ∗ . 而 z T y = z T (˜ x − z) < 0 推出 z ∈ / (X ∗ )∗ , 与 z ∈ (X ∗ )∗ \ X 矛盾. 综合得 (X ∗ )∗ = X . (iv) 当 y ∈ X ∗ , −y ∈ X ∗ 时, 若只有 y = 0 则结论成立. 否则当 y ̸= 0 时, 由 int(X ) ̸= ∅, 存在一个 x ∈ int(X ) 满足 y T x ̸= 0. 由 (i)X ∗ 为锥的结 论, 推出 y T x ≥ 0, −y T x ≥ 0, 即 y T x = 0, 矛盾得到 y = 0. (v) 反证假设 int(X ∗ ) = ∅. 由 (i) 得到 X ∗ 为闭凸锥, 因此 0 ∈ X ∗ . 包含 0 点的仿射空间为线性空间. 记包含 X ∗ 的最小线性子空间(仿射空间)为 A, 则有 dim(A) ≤ n−1. 否则 X ∗ 中存在 n 个线性无关的点 {x1 , x2 , . . . , xn } 52


第二章

基础知识

第三节 对偶集合

使得 conv(0, x1 , x2 , . . . , xn ) ⊆ X ∗ 且 int(conv(0, x1 , x2 , . . . , xn )) ̸= ∅. 这与假 { } 设矛盾. 所以假设 dim(A) = k ≤ n−1. 记 A⊥ = x ∈ Rn | xT y = 0, ∀y ∈ A , 则有 dim(A⊥ ) ≥ 1 且 A⊥ ⊆ (X ∗ )∗ = X . 所以 X 不是尖锥, 与条件矛盾, 假 设不成立. 因此得到 int(X ∗ ) ̸= ∅.  由定理2.25可以直接得到下面的推论: X 是一个凸锥, 则有 (X ∗ )∗ = cl(X ); Rn 中锥 X 的任何一个支撑超平面一定过 0 点; 若凸锥 X 是实(尖) 锥, 则 X ∗ 是尖 (实) 锥. 例 2.10 (1) (Rn+ )∗ = Rn+ , (2) (Ln )∗ = Ln , (3) (S+n )∗ = S+n . 它们都是自对偶锥. 解: 对任意 y ∈ (Rn+ )∗ , 只需取 Rn+ 中的向量 (1, 0, . . . , 0)T , (0, 1, . . . , 0)T , . . . , (0, 0, . . . , 1)T , 按对偶的定义要求得到 y ≥ 0, 即 (Rn+ )∗ ⊆ Rn+ . 反之很易验证, 故 (1) 成立. 给定 y ∈ Ln 和 ∀x ∈ Ln , 由内积的 Cauchy–Schwarz 不等式, | (x1 , x2 , . . . , xn−1 )(y1 , y2 , . . . , yn−1 )T | √ √ 2 ≤ x21 + x22 + . . . + x2n−1 y12 + y22 + . . . + yn−1 ≤ xn yn , 所以 y T x ≥ 0, 得到 y ∈ (Ln )∗ , Ln ⊆ (Ln )∗ . 给定 y ∈ (Ln )∗ , 对所有的 (x1 , x2 , · · · , xn−1 , xn )T ∈ Ln , 有 (y1 , y2 , · · · , yn−1 , yn )(x1 , x2 , · · · , xn−1 , xn )T ≥ 0. 用反证法, 假设 √ 特别取

2 y12 + y22 + . . . + yn−1 = t > yn ≥ 0.

1 (x1 , x2 , . . . , xn−1 , xn )T = − (y1 , y2 , . . . , yn−1 , −t)T , t

则 (x1 , x2 , · · · , xn−1 , xn )T ∈ Ln , 53


第三节 对偶集合

第二章

基础知识

但 (y1 , y2 , · · · , yn−1 , yn )(x1 , x2 , · · · , xn−1 , xn )T = −t + yn < 0, 得到矛盾. 所以 Ln ⊇ (Ln )∗ . (2) 结论得证. 根据定理 2.2, 任给 A ∈ S+n 可以分解成 QT Diag(λ1 , λ2 , . . . , λn )Q √ √ √ √ √ √ = QT Diag( λ1 , λ2 , . . . , λn )QQT Diag( λ1 , λ2 , . . . , λn )Q = C T C, √ √ √ 其中 Q 为正交阵, C = QT Diag( λ1 , λ2 , . . . , λn )Q 为方阵. 同理对给定 的 B ∈ S+n 有方阵 D 使得 B = DT D, 于是 B • A = tr(B T A) = tr(DT DC T C) = tr((DC T )T (DC T )) ≥ 0, 得到 S+n ⊆ (S+n )∗ . 给定 B ∈ (S+n )∗ , 任选 x ∈ Rn , 则有 A = xxT ∈ S+n , A • B = tr(BxxT ) = xT Bx ≥ 0, 因此, B ∈ S+n , 得到 S+n ⊇ (S+n )∗ , (3) 结论成立. 上面的三个例子都是自对偶锥, 下面给出一个不具有自对偶锥的例子. 例2.8给出的非负二次函数锥在一些情况下就不具有自对偶锥的特性. 例 2.11 选取例 2.8 的非负二次函数锥定义域 F = [0, 1]n , 锥定义为   ( )T ( )   1 1 n+1 n ≥ 0 对任意x ∈ [0, 1] 成立 , DF = U ∈ S | U   x x 则其不是自对偶锥. 解: 明显看出 S+n+1 ⊆ DF . 由定理 2.22 的 (i) 得到 S+n+1 ⊇ DF∗ . 可以看出 DF 包含元素全部为非负数的 ( ) n + 1 阶对称矩阵, ( )但这样的矩阵不一定半正 0 1 0 1 定. 例当 n = 1 时, ∈ DF , 但 ∈ / DF∗ . 因此, DF 不是一 1 0 1 0 个自对偶锥. 54


第二章

基础知识

第四节 函数

第四节 函数 设 X 是空间 Rn 中的一个集合, 映射 f : x ∈ X → y = f (x) ∈ R, 则 f (x) 称为定义域 X 上的一个实函数, 也称为一个实映射. 本书习惯上将 X 上的实函数简记成 f : X . 由于本书只讨论实函数, 在不发生混淆的情况下, 实函数简称函数. 在 Rn 中可以讨论连续与微分等概念. 线性函数具有形式: f (x) = aT x + b, 其中 x ∈ Rn 为变量, a ∈ Rn 和 b ∈ R 为给定常数.

连续与微分 函数 f : X 在一点 x0 连续的定义为:f (x0 ) 有定义且 lim f (x) = f (x0 )

x∈X →x0

恒成立. 若函数 f (x) 在集合 X 上的每一点连续, 则称函数 f (x) 是集合 X 上的连续函数 (continuous function). 若 f (x) 在 x 可微, 这一点的梯度 (gradient)定义为一个 n × 1 列向量: ( )T ∂f (x) ∂f (x) ∇f (x) = ,···, , ∂x1 ∂xn Hessian 阵为:

( ∇ f (x) = F (x) = 2

∂ 2 f (x) ∂xi ∂xj

) . n×n

用符号 f (x) ∈ C p (X ) 表示 f (x) 在集合 X 上 p 次连续可微 (continuously differentiable). 对于 p ≥ 3, 我们可以仿效一元函数微分的情形, 逐一 写出更高阶的微分张量矩阵, 但限于 3 维以上矩阵的难于表达性, 通常利用 微分来研究多元函数的方法多限于二次微分形式. 符号“O”和“o”主要用于两个函数的控制关系. 本书中 p(x) = o(q(x)) 的含义为: | p(x) | → 0, 当x → x0 , | q(x) | 表示变量 x → x0 时, 函数 p(x) 是 q(x) 的高阶无穷小量, 表示 p(x) 趋于 0 的速度较 q(x) 为快. 55


第四节 函数

第二章

基础知识

p(x) = O(q(x)) 表示存在一个与 p(x), q(x) 无关的常数 c ≥ 0, 使得 | p(x) | ≤ c, 当x → x0 且q(x) → 0(或 + ∞), | q(x) | 表示变量 x → x0 造成 q(x) 趋于 0 或无穷的时候, 函数 p(x) 随之被 q(x) 控制的情况. 一般情况下, 上面的“O”主要针对 0 和 +∞ 两种情形之一 来讨论函数间控制关系, 如当 x → x0 造成 q(x) → +∞ 时, p(x) = O(q(x)) 表示 p(x) 趋于无穷大的速度不超过 q(x). 在算法复杂性理论方面, “O”符号有更为广泛的两个函数控制含义. 如 p(x) = O(q(x)) 表示存在一个与两个函数无关的常数 c ≥ 0, 使得 | p(x) |≤ c | q(x) |, ∀x ∈ X , 即在整个定义域 X , p(x) 被 q(x) 控制. 限于二阶微分形式的 Taylor 公式 (Taylor Formula)及定理为: 定理 2.26 (Taylor 公式) 设 X 为一个开集, 当 x1 , x2 ∈ X 且 x1 ̸= x2 时, 若 f ∈ C(X ), 则有 f (x2 ) = f (x1 ) + ∇f (x1 )T (x2 − x1 ) + o(∥x2 − x1 ∥); 若 f ∈ C 2 (X ), 则有 1 f (x2 ) = f (x1 )+∇f (x1 )T (x2 −x1 )+ (x2 −x1 )T ∇2 f (x1 )(x2 −x1 )+o(∥x2 −x1 ∥2 ). 2

凸函数及性质 对任给集合 X ⊆ Rn , 实函数 f : X 的上方图 (epigraph)定义为: {( ) } x epi(f ) = ∈ Rn+1 | λ ≥ f (x), x ∈ X . (2.7) λ 若上方图是闭集, 则称 f (x) 是 X 上的一个闭函数 (closed function); 若上 方图是凸集, 则称 f (x) 是 X 上的一个凸函数 (convex function). f (x) 是 X 上的一个凹函数 (concave function)当且仅当 −f (x) 是 X 上的一个凸函数. f (x) 在 X 上的凸包函数 (convex hull function), 记为 conv(f )(x), 定义为满 足条件: epi(conv(f )) = conv(epi(f )) 56


第二章

基础知识

第四节 函数

的函数. 一个凸函数如果满足下面条件:对任意 x ∈ X , f (x) > −∞ 成立, 且 至少存在一个 x ∈ X 使得 f (x) < +∞, 则称其为真凸函数 (proper convex function).

3

2

epi(f )

epi(f )

1

f (x) x

−2

1

−1

2

3

4

5

6

7

6

7

−1

3

2

epi(f )

epi(f )

1

f (x) x

−2

1

−1

2

3

4

5 conv(f )

−1

图 2.5: epi(f )和conv(f ) 的几何直观 可以给上方图是闭集的函数一个几何直观. 当一个函数在一个闭区域 上是连续函数时, 那么, 它的上方图是一个闭函数. 示意图2.5第一张图给出 了上方图的几何直观, 它是以 X 的定义域及曲线 f (x) 上半部分所围的区 域. 第二张图中虚线及与实线吻合的曲线为 conv(f )(x). 定理 2.27 函数 f : X 是凸函数的充分必要条件为:X 是一个凸集且 f (x) 在 X 上满足:任给 x1 , x2 ∈ X 且 0 ≤ α, β ≤ 1, α + β = 1, 有 f (αx1 + βx2 ) ≤ αf (x1 ) + βf (x2 ). 57


第四节 函数

第二章

基础知识

(

) ( ) x1 x2 证明: “充分性”. 对任意 , ∈ epi(f ), 0 ≤ α, β ≤ 1 和 λ1 λ2 α + β = 1, 有 f (x1 ) ≤ λ1 , f (x2 ) ≤ λ2 . 由定理的条件, 则有 f)(αx1 + βx2 ) ≤ ( ) ( x1 x2 αf (x1 ) + βf (x2 ) ≤ αλ1 + βλ2 , 即得到 α +β ∈ epi(f ). 因 λ1 λ2 此, epi(f ) 为凸集. ) ( 1 x ∈ epi(f ), “必要性”. 当 epi(f ) 为凸集时, 对 x1 , x2 ∈ X , 有 f (x1 ) ( ) ( ) ( ) x2 x1 x2 ∈ epi(f ). 由此得到 α +β ∈ epi(f ). 也就 f (x2 ) f (x1 ) f (x2 ) 有 f (αx1 + βx2 ) ≤ αf (x1 ) + βf (x2 ).  凸函数不一定具有可微分的性质, 如 f (x) =| x |, x ∈ R, 在 0 点不可微. 以后我们将引进替代的梯度来研究非光滑凸函数. 定理 2.28 f1 : X 和 f2 : X 是两个凸函数, 则 f1 + f2 : X , max{f1 , f2 } : X 是凸函数. 按定理2.27的等价形式可以简单证明. 在此, 给出一个与相对内点有关的结论. 定理 2.29 设 f : X 为凸函数, 则 {( ) } x ri(epi(f )) = | x ∈ ri(X )且f (x) < λ . λ 证明: 通过仿射空间位移办法, 在最小仿射空间上, 考虑内点的结论, 只需 证明 {( ) } x int(epi(f )) = | x ∈ int(X )且f (x) < λ λ 成立.

{(

明显有 int(epi(f )) ⊆ (

x λ )

)

} | x ∈ int(X )且f (x) < λ .

) {( } x¯ x 对任意 ∈ | x ∈ int(X )且f (x) < λ , 由 x¯ ∈ int(X ), 内 ¯ λ λ 点可以表示为一些点 {x1 , x2 , . . . , xp } ⊂ X , p ≥ 2 的严格凸组合, 即 ∑ x¯ = αi xi ∈ int(conv(x1 , x2 , . . . , xp )), 1≤i≤p

58


第二章

基础知识

第四节 函数

其中 αi > 0, i = 1, 2, . . . , p 且

∑p i=1

f (¯ x) ≤

αi = 1. 记 v = max1≤i≤p f (xi ), 有

p ∑

αi f (xi ) ≤ v.

i=1

于是得到开集 {(

x λ

)

} | x ∈ int(conv(x1 , x2 , . . . , xp )), λ > v {(

) } x¯ 属于 epi(f ), 该开集还包括 | λ > v 这一射线. λ {( ) } x¯ ¯ > v 时, 由开集包括 | λ > v 这一射线的结论, 得到 当 λ λ ( ) {( ) } x¯ x ∈ int(epi(f )). 由此推出 int(epi(f )) ⊇ | x ∈ int(X )且f (x) < λ . ¯ λ λ {( ) } ( ) x ¯ x ¯ ¯ ≤ v 时, 则任取 当λ | λ > v 中一点 其中 λ∗ > v, λ λ∗ ¯ = αλ∗ + (1 − α)f (¯ 存在 0 < α < 1 使得 λ x), 也就有 ( ) ) ) ( ( x¯ x¯ x¯ =α + (1 − α) . ¯ λ λ∗ f (¯ x) (

x¯ λ∗

)

(

为 epi(f ) 一个内点, 根据定理2.15, 当 ( ) x¯ 一点, 则有 ∈ int(epi(f )). 由此推出 ¯ λ {( int(epi(f )) ⊇

x λ

)

x¯ f (¯ x)

) 为 epi(f ) 中任意

} | x ∈ int(X )且f (x) < λ .

综合得到 {( int(epi(f )) =

x λ

)

} | x ∈ int(X )且f (x) < λ .

结论得证.  59


第四节 函数

第二章

基础知识

定理 2.30 对于非空凸集 X ⊆ Rn , 若 f : X 是真凸函数, 则对任一点 x¯ ∈ ri(X ) 都存在 d ∈ Rn 使得: f (x) ≥ f (¯ x) + dT (x − x¯) 对任意 x ∈ X 成立. 证明: 当 f (x) 为真凸函数, 则 epi(f ) 为非空凸集. 因 X 为非空凸集, 由引理2.13得到 ri(X ) ̸= ∅. 对任意点 x¯{( ∈ ri(X) ), f (¯ x) 为有限值, 否则破坏函 } x¯ 数 f (x) 的凸性. 按上方图的定义可知 | λ ≥ f (¯ x) ⊆ epi(f ). 对任 λ ( ) ( ) x¯ x¯ 意 λ > f (¯ x), 由定理2.29知 ∈ ri(epi(f )), 而 ∈ / ri(epi(f )). λ f (¯ x) ( ) ( ) a x ¯ ∈ Rn+1 过 的非平凡 于是由定理2.19, 存在一个法方向为 b f (¯ x) 支撑超平面 aT x + bλ = aT x¯ + bf (¯ x), 使得 ( ) x ∈ epi(f ), aT x + bλ ≥ aT x¯ + bf (¯ x), ∀ λ ( aT x + bλ > aT x¯ + bf (¯ x), ∀ ( 由

x¯ λ

x λ

) ∈ ri(epi(f )).

) ∈ ri(epi(f )) 推出 b ̸= 0.

令 d = −a/b, 得到 epi(f ) 的支撑超平面 } {( ) x ∈ Rn+1 | y − dT x = f (¯ x) − dT x¯ . y 对于任何一点 x ∈ X , 函数值 f (x) 永远在超平面的值的上方, 即满足 f (x) ≥ y, 也就是 f (x) ≥ f (¯ x) + dT (x − x¯) 对任意 x ∈ X 成立.  因此, 对一般函数 f (x) : X ⊆ Rn 在 x¯ 点的次梯度 (subgradient)定义 为满足下面条件的 d ∈ Rn : f (x) ≥ f (¯ x) + dT (x − x¯) 对任意x ∈ X 成立. 60

(2.8)


第二章

基础知识

第四节 函数

f (x) 在 x¯ 点的所有次梯度的集合记成: ∂f (¯ x) = {d ∈ Rn | d 是f (x) 在¯ x 点的次梯度}. 由上述定理, 这样的次梯度定义对真凸函数在相对内点是有意义的. 定理 2.31 X 为非空凸集, 若凸函数 f : X 在 x¯ 点的次梯度集合非空, 则 该次梯度集合为一个闭凸集. 证明: 设 x¯ ∈ X 且该点的次梯度集合非空. 先证明凸性, 即次梯度集合中 任意两个方向的凸组合还是一个次梯度. 设 d1 , d2 ∈ ∂f (¯ x), 0 ≤ α ≤ 1, 则有 f (x) ≥ f (¯ x) + (d1 )T (x − x¯), f (x) ≥ f (¯ x) + (d2 )T (x − x¯) 对任意 x ∈ X 成立. 就推出 f (x) ≥ f (¯ x) + [αd1 + (1 − α)d2 ]T (x − x¯) 对任意 x ∈ X 成立. 所以, αd1 + (1 − α)d2 ∈ ∂f (¯ x). 闭的特性由验证极限点还满足次梯度的定义可以得到.  次梯度的几何直观可以解释为:当 f (x) 为凸函数时, 由次梯度形成的 一个超平面 {( ) } x n+1 T T (2.9) ∈R | y − d x = f (¯ x) − d x¯ , y ) x¯ 为支撑点的 epi(f ) 的一个支撑超平面. 当 f (x) 在 x¯ 处 是以 f (¯ x) 可微时, ∂f (¯ x) = {∇f (¯ x)}, 包含唯一一个向量. 从定理2.30可以看出, 当 n f (x) : X ⊆ R 是凸函数时, X 中每一相对内点都存在次梯度. 当凸函数 f (x) 在边界点或 f (x) 不是凸函数时, 在某些点上的次梯度集合可能为空 集. (

例 2.12

{ f (x) =

ex , −1 ≤ x < 0, 2, x = 0

是一个 [−1, 0] 上的真凸函数, 但在 x = 0 点的次梯度集合为空集. 61


第五节 共轭函数

第二章

8

基础知识

y = x2 /4

7 y = −2x − 4

y = 2x − 4

6 5 4 3 2

y = −x − 1 −8

−6

−4

y = x−1

1 2

−2

4

6

8

x

−1 −2 −3 −4

图 2.6: 次梯度超平面与原函数的关系示意图 为了更加直观地了解次梯度形成的超平面与原函数之间的关系, 对 (2.9) 的超平面方程按如下顺序重新更换符号 b = f (¯ x) − dT x¯, 则超平面方 程重新写成 y = dT x + b, 可以与原有的函数 f (x) 画在一个坐标系中. 请参 考下面的示例. 2

例 2.13 f (x) = x4 及次梯度形成的支撑超平面图形见图 2.6. 实线为 f (x) 的图形, 虚线为形成的超平面方程的图形. 令 g(x) = dx−f (x), 称 max g(x) x∈R

为 dx 与函数 f (x) 的最大差值. 可以看出, 切线与 y 轴的交点长度正好是 2 2 dx 与 x4 的最大差值. 如 d = 2 时, 切线与 y 轴交与 (0, −4)T , 即 dx 与 x4 之差的最大差值为 4.

第五节 共轭函数 当 X ⊆ Rn 时, 对函数 f : X 及每一点 y ∈ Rn 定义: h(y) = sup{y T x − f (x)}, x∈X

记 Y = {y ∈ Rn | h(y) < +∞}. 62

(2.10)


第二章

基础知识

第五节 共轭函数

特别当 Y ̸= ∅, 我们称 h : Y 存在, 此时称 h : Y 为 f : X 的共轭函数 (conjugate function). 如 f (x) = x3 , x ∈ R, 则 h(y) = sup{yx − x3 } = +∞ 对任意 y ∈ R 成 立, 因此 h : Y ⊆ Rn 不存在.

x∈R

共轭函数的存在等价于其定义域 Y ̸= ∅. 在以后的章节, 我们常会用到 共轭函数来建立对偶模型. 对于真凸函数, 特别有如下结论: 引理 2.32 若 f : X 是真凸函数, 则 h : Y 存在. 证明: 由 X 为非空凸集, 则有 ri(X ) ̸= ∅. 由真凸函数的定义, 对任给 x ∈ ri(X ), 有 f (x) < +∞. 于是由定理2.30, 在 x 点的次梯度存在, 记成 y, 有 f (ˆ x) ≥ f (x) + y T (ˆ x − x), ∀ˆ x ∈ X, 得到 y T x − f (x) ≥ y T xˆ − f (ˆ x), ∀ˆ x ∈ X, 即 h(y) = y T x − f (x) 存在.  特别情况是当 X 只有一个点 x 时, 任取一个 y ∈ Rn , 都有 h(y) = sup{y T x − f (x)} = y T x − f (x), x

故 Y = Rn . 非常直观, 对任意的 y ∈ Y, 都有 h(y) ≥ y T x − f (x), ∀x ∈ X . 我们将例2.13的几何直观进一步推广, z = y T x 是一个过原点的平 面, 即 y = ∇f (x), 则 z = y T x 平行于过 ( 假设)y 是 f (x) 在 ( x 点的梯度, ) x y 点以梯度 决定的 epif 支撑超平面, 而它们间的最大差 f (x) −1 ( ) x 距为 −h(y). 再特别注意上一部分由次梯度形成的在 点的支撑 f (x) {( ) } z 超平面 ∈ Rn+1 | λ − dT z = f (x) − dT x , 假设在 x 点 ∇f (x) 存 λ 63


第五节 共轭函数

第二章

基础知识

在, 取 y = d = ∇f (x), 这个支撑超平面在 z = 0 点的截距 b = f (x) − dT x 正好就是 −h(y). 下面给出 Fenchel(或称共轭) 不等式 (Fenchel’s inequality/conjugate inequality). 引理 2.33 给定 f : X 及其共轭 h : Y 存在的条件下, 有 xT y ≤ f (x) + h(y), ∀ x ∈ X 及y ∈ Y. 另外, xT y = f (x) + h(y) ⇐⇒ y ∈ ∂f (x). 证明:由共轭函数的定义 (2.10), 对任意给定 y ∈ Y 有 h(y) ≥ y T x − f (x) 对任意 x ∈ X 成立. 也就得到 xT y ≤ f (x) + h(y), ∀ x ∈ X 及y ∈ Y. 若存在 x ∈ X , y ∈ Y 满足:xT y = f (x) + h(y), 则由共轭函数的定义, 对任意 xˆ ∈ X , 都有 y T xˆ − f (ˆ x) ≤ h(y) = y T x − f (x). 变形为 f (ˆ x) ≥ y T (ˆ x − x) + f (x). 根据次梯度的定义 (2.8), y ∈ ∂f (x). 反之, 对给定的 x ∈ X , y ∈ ∂f (x) 表明 f (ˆ x) ≥ y T (ˆ x − x) + f (x) 对任 意 xˆ ∈ X 成立, 变形得到 y T xˆ − f (ˆ x) ≤ y T x − f (x), ∀ˆ x ∈ X. 因此, h(y) = sup{y T xˆ − f (ˆ x)} ≤ y T x − f (x). x ˆ∈X

由 共 轭 函 数 的 定 义 (2.10), 得 到 h(y) ≥ y T x − f (x). 综 合 得 到 h(y) = y T x − f (x). 充分性得证.  引理 2.34 对于 f : X , 若共轭函数 h : Y 存在, 则 Y 为凸集且 h(y) 是 Y 上的凸函数. 64


第二章

基础知识

第五节 共轭函数

证明:考虑集合 {( epi(h) = ( 任选 epi(h) 中两点

y1 λ1

) ( ,

y λ

)

y2 λ2

} ∈ Rn+1 | h(y) ≤ λ .

) 及 0 ≤ α ≤ 1, 则有

h(αy 1 + (1 − α)y 2 ) = sup{[αy 1 + (1 − α)y 2 ]T x − f (x)} x∈X

≤ α sup{(y 1 )T x − f (x)} + (1 − α) sup{(y 2 )T x − f (x)} x∈X 1

x∈X

= αh(y ) + (1 − α)h(y ) ≤ αλ1 + (1 − α)λ2 . 2

epi(h) 为凸集. 由定理2.27得到 Y 为凸集且 h(y) 为 Y 上的凸函数.



基于共轭函数 h : Y 定义域 Y 满足 h(y) < +∞ 的特殊要求, 上述定理 中无法保证 Y 为闭凸集, 详见下例. 例 2.14 对

√ f (x) = −2 −x, x ∈ X = {x ∈ R | x ≤ 0},

其共轭函数在开集 Y = R++ 有定义, 为 1 h(y) = , y ∈ Y = R++ . y 解: 不难验证, 共轭函数 √ h(y) = sup{xy + 2 −x} = x≤0

{

1 , y

y>0 +∞, 其他

于是 h(y) 有定义的区域 Y = R++ , 为开集. 在函数 f : X ⊆ Rn → R 的共轭函数 h : Y 存在的条件下, 一些结果罗 列如下: (i) 若 α ∈ R, 则 f + α : X 的共轭函数为 h − α : Y. (ii) 对 a ∈ Rn , 在定义域上 X 上的函数 f˜(x) = f (x) + xT a 的共轭函数为 ˜ h(y) = h(y − a), ∀ y ∈ Y + a. 65


第五节 共轭函数

第二章

基础知识

(iii) 对 a ∈ Rn , 在定义域 X + a 上函数 f¯(x) = f (x − a) 的共轭函数为 ¯ h(y) = h(y) + y T a, ∀ y ∈ Y. (iv) 对 λ > 0, X 上函数 f1 (x) = λf (x) 的共轭函数为 h1 (y) = λh( λy ), ∀ y ∈ λY. (v) 对 λ > 0, λX 上函数 f2 (x) = f ( λx ) 的共轭函数为 h2 (y) = h(λy), ∀ y ∈ Y/λ. 定理 2.35 设 X ̸= ∅ 且 f : X 的共轭函数 h : Y 存在, 则 h : Y 的共轭函数 h∗ (x) = sup{xT y − h(y)}, y∈Y

满足 h∗ (x) = cl(conv(f ))(x) 对任意 x ∈ Z = cl(conv(X )), 且 h∗ (x) = +∞ 对 任 意 x ∈ / Z, 其 中 cl(conv(f )) 函 数 由 满 足 epi(cl(conv(f ))) = cl(epi(conv(f ))) = cl(conv(epi(f ))) 的函数定义. 当 f : X 为真凸函数 时, 则有 f (x) = h∗ (x), ∀x ∈ X . 证明: 对任意 x ∈ X , 有 h∗ (x) ≥ xT y − h(y), ∀y ∈ Y. 另外, 由 h(y) = sup{xT y − f (x)} 的定义, 有 x∈X

f (x) ≥ xT y − h(y), ∀y ∈ Y, x ∈ X . 对任意 x1 , x2 ∈ X 及 0 ≤ α ≤ 1, 则有 x = αx1 + (1 − α)x2 ∈ conv(X ) 且 αf (x1 ) + (1 − α)f (x2 ) ≥ (αx1 + (1 − α)x2 )T y − h(y), ∀y ∈ Y. 进一步对任意 x ∈ cl(conv(X )), 得到 cl(conv(f ))(x) ≥ xT y − h(y), ∀y ∈ Y. 也就得到 cl(conv(f ))(x) ≥ h∗ (x), ∀x ∈ cl(conv(X )).

) x 用反证法证明. 假设存在 x ∈ cl(conv(X )) 使得 不属于 h∗ (x) cl(conv(epi(f ))). 因为 cl(conv(X )) 上的 cl(conv(epi(f ))) 为闭凸集, 则有 66

(


第二章

基础知识

第五节 共轭函数

cl(conv(f) ))(x) > h∗ (x). 由引理2.8, 存在一个 aT z + bλ = c 的超平面分离 ( x 和 cl(conv(epi(f ))), 即 ∗ h (x) ( aT z + bλ ≥ c > aT x + bh∗ (x), ∀ (

x cl(conv(f ))(x) 所以得到 b > 0 和 由

z λ

) ∈ cl(conv(epi(f ))).

) ∈ cl(conv(epi(f ))) 及 h∗ (x) < cl(conv(f ))(x),

c y T z − f (z) ≤ − < y T x − h∗ (x), ∀z ∈ cl(conv(X )), b 其中 y = − ab . 因此得到 c h(y) ≤ − < y T x − h∗ (x), b 即 h∗ (x) < y T x − h(y) ≤ h∗ (x). 矛盾说明反证法假设错误. 故 h∗ (x) = cl(conv(f ))(x), ∀x ∈ cl(conv(X )). 下面证明对 ∀x ∈ / cl(conv(X )) 有 h∗ (x) = +∞. 继续采用反证法. 假 设存在 x∗ ∈ / cl(conv(X )), 使得 h∗ (x∗ ) = M1 < +∞. 由引理2.7, 存在 x¯ ∈ cl(conv(X )) 满足 (x∗ − x¯)T (x∗ − x¯) > 0; (x∗ − x¯)T (x − x¯) ≤ 0, ∀x ∈ cl(conv(X )). 由定理假设 h : Y 存在, 说明存在 y¯ 和 M2 使得 supx∈X {xT y¯ − f (x)} ≤ M2 , 也就有 f (x) ≥ xT y¯ − M2 , ∀x ∈ X . 定义 y ∗ = y¯ + δ(x∗ − x¯), δ =

| (x∗ )T y¯ − M1 − M2 | + 1, (x∗ − x¯)T (x∗ − x¯)

有 h(y ∗ ) = sup{xT y ∗ − f (x)} ≤ sup{xT y ∗ − xT y¯ + M2 } X

X

= sup{δxT (x∗ − x¯) + M2 } ≤ δ¯ xT (x∗ − x¯) + M2 < +∞. X

因此有 y ∗ ∈ Y. 67


第五节 共轭函数

第二章

基础知识

另一方面, 由于 M1 = h∗ (x∗ ) ≥ (x∗ )T y ∗ − h(y ∗ ), 得到 h(y ∗ ) ≥ (x∗ )T y ∗ − M1 = δ(x∗ )T (x∗ − x¯) + (x∗ )T y¯ − M1 = [δ(x∗ − x¯)T (x∗ − x¯) + (x∗ )T y¯ − M1 − M2 ] + [δ¯ xT (x∗ − x¯) + M2 ] > δ¯ xT (x∗ − x¯) + M2 ≥ h(y ∗ ). 由此矛盾说明假设错误, 得到 ∀x ∈ / cl(conv(X )) 有 h∗ (x) = +∞. 当 f : X 为闭真凸函数时, f = h∗ : X 为上述证明结果的直接推论.  定理 2.36 假设 f : X ⊆ Rn → R 是一个真凸函数, 则对应的共轭函数 h : Y 存在, 且 h : Y 的共轭函数限定在定义域 X 上为 f : X . 对 x ∈ X 和 y ∈ Y, y ∈ ∂f (x) 当且仅当 x ∈ ∂h(y), 此时有 xT y = f (x) + h(y) ⇐⇒ y ∈ ∂f (x) 或x ∈ ∂h(y). 证明:因为 f : X ⊆ Rn → R 是一个真凸函数, 由引理2.32, 共轭函数 h(y) 存在. 定理2.35已经证明函数 h : Y 的共轭函数 (记成 h∗ (x)) 在凸集 X 上与 f : X 相同. 当存在 y ∈ ∂f (x) 时, 由次梯度定义 (2.8), 有 f (ˆ x) ≥ y T (ˆ x − x) + f (x), ∀ˆ x ∈ X, 进一步 y T xˆ − f (ˆ x) ≤ y T x − f (x), ∀ˆ x ∈ X, 得到 h(y) = y T x − f (x) = y T x − h∗ (x). 可以推导出以下关系: h∗ (x) = y T x − h(y) ≥ yˆT x − h(ˆ y ), ∀ˆ y ∈ Y, 进一步 h(ˆ y ) ≥ xT (ˆ y − y) + h(y), ∀ˆ y ∈ Y, 得到 x ∈ ∂h(y). 同理证明另一个方向. 总结上面的证明, 则有 xT y = f (x) + h(y) ⇐⇒ y ∈ ∂f (x) 或x ∈ ∂h(y). 证明完毕.  68


第二章

基础知识

第六节 可计算性问题

定理 2.37 假设 f1 : X 和 f2 : X 有相同的凸包函数且共轭函数 h1 : Y1 和 h2 : Y2 存在, 则 Y1 = Y2 = Y 且 h1 = h2 : Y. 证明: f1 (x) 的共轭函数为 h1 (y) = sup{xT y − f1 (x)}, x∈X

在 y ∈ Y1 存在. f2 (x) 的共轭函数为 h2 (y) = sup{xT y − f2 (x)}, x∈X

在 y ∈ Y2 存在. 根 据 定 理2.35, h1 : Y1 和 h2 : Y2 的 共 轭 函 数 在 x ∈ cl(conv(X )) 分别具有下列形式:cl(conv(f1 ))(x) 和 cl(conv(f2 ))(x); 而在其它区域为 +∞. 由假设 f1 : X 和 f2 : X 具有相同的凸包函数, 则 cl(conv(f1 ))(x) = cl(conv(f2 ))(x), x ∈ cl(conv(X )). 于是得到 h1 : Y1 和 h2 : Y2 的共轭函数相 同. 由引理2.34, 得到共轭函数 h1 : Y1 和 h2 : Y2 是真凸函数. 对这两个函 数再做两次共轭, 因这两个函数的共轭函数相同, 再使用一次定理2.35, 得 到 h1 = h2 : Y, 其中 Y = Y1 = Y2 .  定理2.37给出了一个非常深刻的理论结果, 无论函数 f1 (x) 和 f2 (x) 是 否相同, 只要它们的凸包函数相同, 它们的共轭函数就是相同的. 这一结果 和思想将在后续章节中经常使用.

第六节

可计算性问题

可计算性问题 (computable problem)涉及离散和连续两个领域, 其概念 不尽相同, 有些地方可能还有一定的不兼容性. 本节意在从两个不同领域介 绍各自的理解, 以便在后续章节针对不同领域的问题能够理解可计算这个 概念. 算法设计总离不开复杂性的概念. 对于离散的组合优化问题, 自 20 世 纪 70 年代图灵机(Turing machine)理论的出现, 已形成了非常系统化的 69


第六节 可计算性问题

第二章

基础知识

计算复杂性理论, 详细的内容可以参考 [17]. 人们已经熟悉了 NP-Complete 和 NP-Hard 这些概念, 并对 NP-Complete 和 NP-Hard 问题的难解性予以 广泛接受. 内点算法首先成功地解决了线性规划的复杂性分类, 将其归为多 项式时间可解问题, 是基于图灵机的理论体系的归类. 随内点算法在更为广 泛问题中使用, 它对解决连续优化问题的优势就越发显得突出, 但针对离散 问题的图灵机复杂性理论就无法完全适应连续优化问题, 于是产生了针对 连续问题的复杂性概念 [3, 39, 47]. 连续问题的复杂性概念或多或少地模仿了离散问题的复杂性定义方法, 由此引发了组合优化问题研究学者和连续优化问题研究学者各自的理解和 描述. 本节从离散和连续两个系统分别介绍本书所要涉及的一些复杂性的 概念, 最后给出一些评论.

离散模型 一般性将优化问题写成 vopt = min f (x) s.t. g(x) ≤ 0, x ∈ D ⊆ Rn ,

(2.11)

其中 D 称为定义域, f : D → R 为目标函数, g : D → Rm 为约束函数. 当 D 为离散点集时, 优化问题 (2.11) 称为离散优化问题或组合优化问题, 当 D 为连续点集时, 该问题称为连续优化问题. F = {x ∈ D | g(x) ≤ 0} 称为 问题的可行解集合. 针对离散问题, 计算复杂性的理论基于图灵机模型, 或称为 2 进制模型 (bit model). 对于给定的问题, 当问题中的变量个数, 系数等给定后, 称为问 题的一个实例 (instance). 问题是实例的统称, 实例是问题的一个具体表现. 图灵机模型要求实例中的所有系数是整数或有理数, 目前的计算机就是这 样限定和设置的. 给定一个实例后, 计算机以 2 进制的方式存贮实例的系 数, 它们在计算机中占据的空间大小称为实例的字长 (size). 算法针对问题 而设计, 但以每一个实例为实现对象. 算法对计算机中存储的系数进行加、 减、乘、除、比较、读、写等基本运算, 最后得到问题实例的解答. 这些基 本运算的总和称为算法对实例的计算量. 记问题为 Q, 实例为 I, 字长为 s(I), 一个算法 A 的计算量为 CA (I). 70


第二章

基础知识

第六节 可计算性问题

若存在一个多项式函数 p(·) 满足: CA (I) = O(p(s(I))), ∀I ∈ Q, 则称 A 是求解问题 Q 的一个多项式时间算法 (polynomial time algorithm), 其中 “O” 在本章第四节有过介绍, 表示控制的含义. 这是复杂性分析的第 一功能, 对算法的计算复杂性进行分类. 目前普遍接受的一个结论是:多 项式时间的算法是一类好的算法. 复杂性分析的第二个功能是对问题的分 类. 若 Q 存在多项式时间算法, 则称为多项式时间问题. NP-Complete 和 NP-Hard 问题的定义还需要更多的概念, 我们不在此赘述, 所具有的一个共 同点是:到目前为止, 还没有找到多项式时间的算法求解这些问题. 对于那些困难的 NP-Complete 和 NP-Hard 问题, 实际或计算的需求 希望在短时间内算出实例的一个可行解或给出优化问题 (2.11) 的下界. 于 是, 人们在设计算法时需要顾及两个因素:计算时间和解的效果. 由此出现 了启发式算法 (heuristic algorithms), 它们在限定的计算时间内, 给出问题 实例的一个解, 这个解不一定是问题的最优解, 甚至连可行解也不是. 无论对算法的设计和使用人员, 对于给定的一个算法 A, 还是期望获 得:存在一个 ϵ > 0, 使得算法得到的目标值 vA (I) 与优化问题 (2.11) 的理 论最优值 vopt (I) 满足 | vA (I) − vopt (I) |≤ ϵ (vup (I) − vopt (I)) , ∀I ∈ Q,

(2.12)

使用中要求 vup (I) 为 vA (I) 的一个上界估计, 相对比较容易求解. 如果存在一个 ϵ > 0 使得 (2.12) 成立, 则我们得知算法 A 计算出的解 在最坏的情况下也可以保证在参考误差 (vup (I) − vopt (I)) 的 ϵ 的比率内, 因 此, 具有一定的保证. 当 ϵ 越小, 算法的计算效果越好. 从 (2.12) 还可以看 出, 如果 vup (I) 是通过一个可行解计算得到, 则可以保证 0 < ϵ ≤ 1. 此时, 若一个算法满足 (2.12), 则称为 1 − ϵ 近似算法. (2.12) 中的误差估计具有相对性. 有时为了运算简单采用如下的误差 估计 | vA (I) − vopt (I) |≤ ϵ, ∀I ∈ Q.

(2.13)

在此我们称为误差估计的简化形式. 简化形式在目标值 vopt (I) 本身很小的 情况下可能比 (2.12) 的近似结果差, 但后一种模型中减少了一个上界估计. 后续章节中, 我们采用后一种形式进行估计. 71


第六节 可计算性问题

第二章

基础知识

在组合优化问题 Q 中, 对任意给定的 ϵ > 0, 如果有一个 1 − ϵ 近似算 法 A 和一个二元多项式函数 g(·, ·), 使得算法 A 的计算复杂性 CA (I) = O(g(s(I), y)), ∀I ∈ Q, 其中 s(I) 是实例 I 的输入字长, y = r( 1ϵ ), r(·) 为一个实函数, 则称 A 是一 个 PTAS(polynomial time approximation scheme). 特别当 r(x) = x 时, 称 A 是一个 FPTAS(fully polynomial time approximation scheme). 从问题分类的角度来看, 多项式时间问题最简单, 可以设计出多项式时 间的算法求出问题每一个实例的最优解. 相对难度高一点的问题就是存在 FPTAS 或 PTAS 的问题. 首先它们是 NP-Complete 或 NP-Hard 问题, 到 目前为止还没有找到多项式时间的算法得到最优解, 但只要给出一个计算 精度 ϵ > 0, 都可以计算出与最优值之差在精度范围内的解, 其计算量对给 定的 ϵ > 0 是多项式时间的. 离散的复杂性理论来源于对离散优化问题的研究, 但不仅限于此, 同样 可以应用在连续优化模型中. 如线性规划是一个连续的优化模型, 它的定义 域为连续空间, 它的系数在假定为有理数的前提下, 可以通过 2 进制字符表 示, 线性规划的问题分类及内点算法的复杂性分析就是基于离散的复杂性 理论. 同样的原理, 二次规划, 多项式优化问题等也适用离散模型进行复杂 性分析.

连续模型 连续优化问题有其特殊性, 如无理数在目前的有限位计算机中只能近 似存储, 而还有一大类的计算问题无法通过离散系统的基本运算计量计算 √ (x) 复杂性, 如 R 上的 cos(x), x 和 dfdx 等. 连续系统的复杂性理论应运而生. 在连续模型中, 我们将一些运算看成一个黑箱, 不关心核心的具体算 √ (x) 法, 如计算 R 上的 cos(x), x 和 dfdx 等看成一次运算, 两个实数的加法看 成一次运算, 不再像离散的 2 进制模型中还要计算储存的位数与对应位数 之间的加法运算. 因此实例的输入需要考虑:变量的个数, 系数的个数和 给定的计算精度 ϵ. 如对二次约束二次规划问题 (quadratically constrained quadratic programming–QCQP) min s.t.

1 T x Q0 x + f0T x + c0 2 1 T x Qi x + fiT x + ci ≤ 2 n

x∈R .

72

0, i = 1, 2, . . . , m


第二章

基础知识

第六节 可计算性问题

它的输入为:n 个变量, (n2 + n + 1)(m + 1) 个系数和一个给定的计算 精度 ϵ. 同样的问题, 当以离散模型讨论时, 输入的字长需要考虑系数 Qi , fi , ci , i = 0, 1, . . . , m 的二进制字符所占长度, 变量个数. 在连续模型复杂性理论中, 实例的输入包含两部分:一是输入计算精 度 ϵ > 0;一个是输入问题实例的维数, 包括变量的个数和系数的个数. 连续模型的基本运算的计量方法为:两个实数间的加、减、乘、除、 比较、读或写分别看成一次运算;一些特殊函数的运算以黑箱的形式看成 √ (x) 一次运算, 如 cos(x), x 和 dfdx 等看成一次运算. 对问题解的理解也发生变化. 不能按离散模型区分到一个精确的离散 问题的解, 而只能按给定的精度求出精度要求范围内的一个解, 所谓 1 − ϵ 近似解的含义为:对给定的 ϵ > 0, 记近似算法得到的解为 xA (I) 和目标值 vA (I), 有 | vA (I) − vopt (I) |≤ ϵ, 且 xA (I) 落在可行解区域或距可行解区域 边沿距离不超过 ϵ 的区域内. 类似离散问题的 PTAS 和 FPTAS, 一个连续优化问题称为可计算的, 则要求:对给定的计算精度 ϵ > 0, 存在一个 1 − ϵ 近似算法 A 和一个二元 多项式函数 g(·, ·), 使得算法 A 的计算及验证 1 − ϵ 近似解的满足情况总和 的计算量为 CA (I) = O(g(d(I), y)), ∀I ∈ Q, 其中 d(I) 是实例 I 的维数, y = r( 1ϵ ), r(·) 为一个实函数.

离散与连续模型的不兼容性 表面上看, 有关离散模型的存在 PTAS 的问题和连续模型的可计算性 问题都相对比较简单, 都可以在给定的精度下求解到与最优值之差满足精 度的解, 但在理论上还是一个有争论的议题. 主要表现为离散模型中存在 PTAS(或 FPTAS) 的 NP-Hard 问题, 在连续模型的算法分析中却是可计算 的. 如组合最优化中经典的 NP-Hard 背包问题 (knapsack problem): ∑n max c i xi ∑i=1 n s.t. i=1 ai xi ≤ b, xi ∈ {0, 1}n . 存在一个 O(n4 × 1ϵ )(参考 [52], 定理 1.6.4) 的 FPTAS. 从连续模型的角度来 看, 这个问题的任何一个实例包含 n 个变量, 2n + 1 个系数, 因此实例的维 73


第七节 小结

第二章

基础知识

数为 3n + 1. 继续采用上面提及的组合优化问题的算法, 对给定的精度, 得 到一个 O(n4 × 1ϵ ) 算法. 因此, 从连续模型的角度认为背包问题是可计算的, 但它却是组合最优化中经典的 NP-Hard 问题. 这个例子说明两个系统中有 关可计算问题概念的不兼容性: 同一个问题, 连续模型中的可计算问题并不 等同离散模型中的具有 FPTAS 的问题. 同 样 有 趣 的 是 线 性 规 划 问 题. 在 连 续 模 型 中, 它 因 存 在 内 点 算 法 [27, 28] 而成为一个可计算问题, 但从离散模型的角度来研究, 大家承认它 是一个多项式时间问题. 仔细研究会发现, 在离散模型的研究中假设所有 系数为有理数, 当给定的精度 ϵ 充分小时, 保证近似求解的区域内只有最优 解. 由上面两个例子可以看出, 对于连续和离散模型中, 对系数的有限位要 求和黑箱计算假设对结果的分析影响巨大. 离散与连续模型的不兼容性问 题是理论研究者一个具有挑战性的课题. 也许我们还可以在可计算性定义中函数 y = r( 1ϵ ) 上做文章, 如在目前 的内点算法和椭球算法中, 计算复杂性与 1ϵ 的关系限定在 y = ln( 1ϵ ) 规模 内(参考 [38] 第四章). 这就引出了一系列新的问题, 限定在这个规模内, 连续模型的可计算问题与离散模型的多项式时间问题又具有什么关系? 本书后续章节所提及的连续优化问题的可计算性是基于以上连续模型 定义的理解.

第七节 小结 这一章主要给出了有关集合、函数和对偶集合的一些基本概念和结论, 对本书后续的阅读非常重要. 实际上, 不少著作中也介绍这些内容, 但本章 突出凸集、相对内点、对偶集合和共轭函数的概念和结论. 这些内容对线 性锥规划的了解必不可少.

74


LCP CH2