Bagatoekstremalna stoxast aproksumazia

Page 1

Матеріали взято з книги: М. І. Жалдак, Ю. В. Триус Основи теорії і методів оптимізації: Навчальний посібник. – Черкаси: Брама-Україна, 2005. – С. 544-545, 533-537.

Багатоекстремальна стохастична апроксимація. Згідно схеми багатоекстремальної стохастичної апроксимації здійснюється поєднання операцій вибору початкової точки і локального спуску. Процедура зміщення з поточної точки при переході від одного випробування до іншого містить компоненту, яка реалізує локальний спуск за методом стохастичної апроксимації (див. §38)), і компоненту, яка реалізує стрибкоподібний випадковий пошук, ефект впливу якого аналогічний до переходу в іншу початкову точку, причому досягнення асимптотичної збіжності до точки глобального екстремуму (у деякому узагальненому імовірнісному розумінні) забезпечується шляхом відповідного управління довжиною крокового множника при локальному спускові та інтенсивністю випадкових стрибків. Метод стохастичної апроксимації. Розглянемо спочатку один з перших загальних прямих методів розв’язування стохастичних задач на безумовний екстремум. Нехай треба розв’язати задачу мінімізації функції регресії на всьому просторі R n , тобто 

F ( x )  Mf ( x, ) 

 zdH ( z, x)  min , x  R

n

,

(38.93)

-

де

H ( z , x)  P{ f ( x, )  z} . Основна ідея методу стохастичної апроксимації полягає в тому, щоб при мінімізації функції F (x ) за напрям спуску обирати антиградієнт функції f ( x, ) замість невідомого антиградієнта  F (x ) функції F (x ) , тобто замість звичайного градієнтного методу в методах стохастичної апроксимації розглядаються ітеративні процедури пошуку, що визначаються рекурентними співвідношеннями x ( k 1)  x ( k )  hk f x ( x ( k ) , ) , k  0, 1, 2,  .

(38.94)

Якщо при кожному  градієнт f x ( x, ) з певних причин обчислити складно, то розглядається метод, в якому градієнт визначається чисельно, (38.95) n

x ( k 1)  x ( k )  hk 

j 1

f (x

(k )

 k e

( j)

(k j )

, )  f (x k

(k )

,

(k0 )

)

e ( j ) , k  0, 1, 2,  ,


де e ( j ) – орт j -ї осі, j  1, n ; ( 0 i ) , (1i ) , ..., ( k i ) , ..., i  0, n , – незалежні серії спостережених значень параметра  (при цьому можна вважати, що ( k 0 )  ( k1 )  ...  ( k n )  ( k ) ); hk – кроковий множник; (k ) – величина зміщення (пробний крок) вздовж осей координат. Збіжність методу стохастичної апроксимації (38.95) як правило досліджується за умов існування, неперервності і обмеженості других частинних похідних функції F (x ) (див., наприклад, [16]). Можна показати, що при таких припущеннях має місце подання M(( k ) / x ( k ) )  F ( x ( k ) )   ( k )  k ,

де

(k )

n



j 1

 (k ) – деякий

(k )

f ( x ( k )   k e ( j ) ,  j )  f ( x ( k ) , ( k 0 ) ) ( j ) e , k

випадковий

вектор,

вимірний

відносно

(38.96) Bk ,

причому

||  ( k ) || const . Отже, метод (38.95) є частинним випадком методу проекції стохастичного квазіградієнта (38.69), (38.66), коли X  R n і  (k ) визначається співвідношенням (38.96). Припустимо, що розмірність простору R n досить велика і при визначенні напряму спуску згідно (38.96) витрачається багато ресурсів комп’ютера і, крім того, є додаткове пряме обмеження x  X , де X опукла і замкнена множина, для якої легко шукати проекцію довільної точки з R n . Тоді аналогічно з (38.70) можна використати випадкові напрями   (1 ,, n ) з незалежними координатами з рівномірними розподілами ймовірностей їх значень на [1; 1] і розглянути ітеративний процес x

( k 1)

(k ) (k ) Tk  (k ) f ( x ( k )   k  j ,  j )  f ( x ( k ) , ( k 0 ) ) ( k j )   ,  PX x  hk      j  1 k   (38.97) k  0, 1, 2, ,

де величини Tk ,  k , 

(k j )

мають той самий смисл, що й в (38.70), {

(k j )

},

j  0, Tk ,– незалежні спостережені значення параметра  для k  0, 1, 2,  . У випадку, коли функція F (x ) має неперервні і обмежені другі частинні похідні при x  X , можна показати, що процедура (38.97) є частинним випадком методу проекції стохастичного квазіградієнта (38.69), (38.66), коли  (k ) визначається співвідношенням (38.96).

(k )

Tk



j 1

f ( x(k )  k

(k j )

(k )

,  j )  f ( x ( k ) , ( k 0 ) ) ( k j )  , k


при цьому

Tk F ( x ( k ) )   ( k )  k , 3 вектор, вимірний відносно

M ( ( k ) / x ( k ) )   (k ) – деякий

випадковий

||  ( k ) || const . Для регулювання величин використовуються загальні умови теореми 38.3.

hk

Tk ,

Bk , k

причому в

(38.97)

Застосовуючи метод скорочення нев’язок (38.89)-(38.92), процедуру (38.95) можна узагальнити на задачу стохастичного програмування з обмеженнями (див, наприклад, [37]): F ( x)  Mf ( x, )  min , Gi ( x)  Mgi ( x, )  0 , i  1, m ,

x X , поклавши m

L ( x ,  , )  f ( x , )    i g i ( x , ) , i 1

( x, )  ML( x, , ) ,

де функції f (x ) , g i (x ) , i  1, m , задовольняють умови теореми 38.3. Тоді процедура стохастичного методу скорочення нев’язок набуває вигляду n L ( x ( k )   e ( j ) , ( k ) ,  ( k j ) )  L ( x ( k ) , ( k ) ,  ( 0 j ) )  (k )  ( k 1) k  x  PX x  hk  k  e( j )  ,   k j 1   ( k 1)  P (( k )  hk  k L ( x ( k ) , ( k ) , ( k 0 ) )) , k  0,1,2, ,

де e ( j ) – орт j -ї осі, j  1, n ; ( 0 i ) , (1i ) , ..., ( k i ) , ..., i  0, n , – незалежні серії спостережених значень параметра  (при цьому можна вважати, що ( k 0 )  ( k1 )  ...  ( k n )  ( k ) ); hk – кроковий множник; (k ) – величина зміщення (пробний крок) вздовж осей координат, L ( x ( k ) , ( k ) , ( k 0 ) ) – градієнт функції Лагранжа L( x, , ) за змінними 1 ,,  m в точці (k ) при фіксованих x (k ) і ( k 0 ) , тобто L ( x ( k ) , ( k 0 ) )  ( g1 ( x ( k ) , ( k 0 ) ),, g m ( x ( k ) , ( k 0 ) )) .

У наведених процедурах величини hk і  k у випадку, коли вони детерміновані, досить обирати так, щоб виконувались наступні умови: hk  0 ,

k 0

k 0

 hk   ,  M( hk |  k |  hk2 )   .


Метод стохастичних казіградієнтів можна застосувати для знаходження розв’язку двохтапної задачі (див. п.4) як з лінійними, так і нелінійними цільовою функцією та функціями-обмеженнями (див., наприклад, [37]). Нехай задано наступну задачу стохастичного програмування: F ( x)  Mf ( x, y ( x, ), )  min ,

(38.98)

g i ( x, y ( x, ), )  0 , i  1, m ,

(38.99)

x  X , y Y ,

(38.100)

де вектор x  X , X  R n – попередній план задачі, а y  Y , Y  R r – його корекція при заданому  . Тобто, задача (38.98)-(38.100) являє собою двоетапну задачу стохастичного програмування. Для знаходження її розв’язку також можна застосувати ітераційний процес (38.69), (38.66). Розглянемо два способи реалізації процесу (38.69), (38.66). Нехай функції f ( x, y ( x, ), ) , gi ( x, y ( x, ), ) , i  1, m при кожному  опуклі і неперервно-диференційовні за сукупністю змінних ( x, y ) , а також при кожному x і  існує сідлова точка ( y * ( x, ),  * ( x, )) функції Лагранжа m

L( x,y, )  f ( x, y , )    i g i ( x, y , ) ,

(38.101)

i 1

при y  Y ,  i  0 , i  1, m . (i ) Нехай fˆxy ( x, y ( x, ), ) , gˆ xy ( x, y ( x, ), ) , i  1, m – узагальнені градієнти (субградієнти) відповідно функцій f ( x, y ( x, ), ) , gi ( x, y ( x, ), ) , i  1, m , за сукупністю змінних ( x, y ) при фіксованому  . Припустимо, що такі fˆ  ( fˆ , fˆ ) , узагальнені градієнти можуть бути подані у вигляді xy

x

y

(i ) gˆ xy  ( gˆ x( i ) , gˆ (yi ) ) , де fˆx , fˆy , gˆ x( i ) , gˆ (yi ) – узагальнені градієнти відповідно

функцій f ( x, y ( x, ), ) , gi ( x, y ( x, ), ) , i  1, m , за змінними x і y , коли інші змінні фіксовані. Тоді для знаходження розв’язку задачі (38.98)-(38.100), коли множина X опукла і замкнена, за правилами процесу (38.69), (38.66) необхідно взяти ( k )  fˆx ( x ( k ) , y ( x ( k ) , ( k ) ), ( k ) )  m

   i ( x ( k ) , ( k ) ) gˆ x( i ) ( x ( k ) , y ( x ( k ) , ( k ) ), ( k ) ) ,

(38.102)

i 1

де (k ) , k  0, 1,  , – незалежні реалізації параметра  . При цьому можна довести виконання співвідношення (38.65). Якщо f ( x, y ( x, ), ) , gi ( x, y ( x, ), ) , i  1, m , мають другі частинні похідні за x , обмежені при всіх  і y  Y , тоді замість (38.102) в методі


проекції стохастичних квазіградієнтів (38.69), (38.65) можна використати вектор, який визначається з наступних співвідношень (див. (38.96))

L( x ( k )   k e ( j ) , y ( k ) , ( k ) , ( k ) )  L( x ( k ) , y ( k ) , ( k ) , ( k ) ) ( j ) e ,  j 1 k або (див. (38.70)) n

( k )  

(k )

L ( x ( k )   k ( k i ) , y ( k ) , ( k ) , ( k ) )  L ( x ( k ) , y ( k ) , ( k ) , ( k ) ) ( k i )   , k i 1 Tk

де m

L ( x , y ,  , )  f ( x , y , )    i g i ( x , y , ) ,

y

(k )

 y( x

(k )

,

(k )

), 

(k )

 ( x

i 1 (k )

, ( k ) ) , k  0, 1,  .


Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.