100617627

Page 1


Spistreści

1.Wprowadzenie

1.1.Ktopowinienprzeczytaćtęksiążkę?... ..........9

1.2.Historycznetrendydeeplearningu ..............11

IPodstawymatematykistosowanejisystemówuczącychsię27

2.Algebraliniowa

2.1.Skalary,wektory,macierzeitensory ..............29

2.2.Mnożeniemacierzyiwektorów.

2.3.Macierzejednostkoweiodwrotne

2.4.Zależnośćliniowaizakres ...................35

2.5.Normy ..............................37

2.6.Macierzeiwektoryspecjalne

2.7.Rozkładnawartościwłasne

2.8.Dekompozycjawartościosobliwej

2.9.Uogólnionamacierzodwrotna(Moore’a–Penrose’a). ....43

2.10.Operatorśladowy ........................44

2.11.Wyznacznik ...........................45

2.12.Przykład:analizagłównychskładowych. ..........45

3.Prawdopodobieństwoiteoriainformacji

3.1.Dlaczegoprawdopodobieństwo? ................52

3.2.Zmiennelosowe .........................54

3.3.Rozkładyprawdopodobieństwa..

3.4.Prawdopodobieństwobrzegowe ................56

3.5.Prawdopodobieństwowarunkowe

3.6.Regułałańcuchowawprawdopodobieństwiewarunkowym.57

3.7.Niezależnośćorazniezależnośćwarunkowa ..........58

3.8.Wartośćoczekiwana,wariancjaikowariancja

3.9.Znanerozkładyprawdopodobieństwa .............60

3.10.Użytecznecechyelementarnychfunkcji ............65

3.11.PrawoBayesa ..........................68

3.12.Techniczneszczegółyzmiennychciągłych... ........68

3.13.Teoriainformacji ........................70

3.14.Strukturalnemodeleprobabilistyczne

4.Obliczenianumeryczne77

4.1.Nadmiariniedomiar ......................77

4.2.Złeuwarunkowania .......................79

4.3.Optymalizacjagradientowa ..................79

4.4.Optymalizacjazograniczeniami.. ..............89

4.5.Przykład:liniowametodanajmniejszychkwadratów ....92

5.Podstawysystemówuczącychsię95

5.1.Algorytmyuczeniasię .....................96

5.2.Pojemność,nadmiernedopasowanieiniedopasowanie ....108

5.3.Hiperparametryizbiorywalidacyjne. ............118

5.4.Estymatory,obciążenieiwariancja ..............120

5.5.Metodamaksymalnejwiarygodności .............129

5.6.StatystykiBayesa ........................133

5.7.Algorytmynadzorowanegouczeniasię ............138

5.8.Algorytmynienadzorowanegouczeniasię. ..........143

5.9.Metodagradientustochastycznego.. ............150

5.10.Tworzeniealgorytmudlasystemuuczącegosię ........152

5.11.Wyzwaniamotywującedeeplearning .............153

IIGłębokiesieci:nowoczesnepraktyki163

6.Głębokiesiecijednokierunkowe165

6.1.Przykład:uczeniesięfunkcjiXOR ..............168

6.2.Uczeniesięopartenagradiencie ................173

6.3.Jednostkiukryte ........................188

6.4.Projektarchitektury ......................195

6.5.Propagacjawstecznaiinnealgorytmyróżniczkowania ....201

6.6.Uwagihistoryczne .......................221

7.Regularyzacjawdeeplearningu225

7.1.Standardowekarydlaparametrów ..............227

7.2.Standardowekaryjakooptymalizacjazograniczeniami...234

7.3.Regularyzacjaiproblemyniedoograniczone .........236

7.4.Powiększaniezbiorudanych ..................237

7.5.Odpornośćnaszum.. .....................239

7.6.Uczeniesięczęściowonadzorowane.. ............241

7.7.Uczeniesięwielozadaniowe ...................242

7.8.Wczesnezatrzymanie. .....................243

7.9.Wiązanieiwspółdzielenieparametrów ............250

7.10.Rzadkowypełnionereprezentacje ...............252

7.11.Baggingiinnemetodyzespołowe. ..............254

7.12.Odrzucanie ...........................256

7.13.Szkolenieantagonistyczne ...................266

7.14. Odległośćstyczna,propagacjastycznejorazklasyfikator stycznejdorozmaitości .....................268

8.Optymalizacjawceluszkoleniagłębokichmodeli273

8.1.Czymuczeniesięróżnisięodczystejoptymalizacji .....274

8.2.Wyzwaniazwiązanezoptymalizacjąsiecineuronowej ....281

8.3.Podstawowealgorytmy .....................293

8.4.Strategienadawaniaparametromwartościpoczątkowych..299

8.5.Algorytmyzadaptacyjnąszybkościąuczeniasię .......306

8.6.Aproksymacyjnemetodydrugiegorzędu ...........310

8.7.Strategieoptymalizacjiimeta-algorytmy. ..........317

9.Siecisplotowe331

9.1.Splotjakodziałanie .......................332

9.2.Uzasadnienie ..........................334

9.3.Redukcja

9.4.Splotiredukcjajakonieskończeniesilnyrozkład aprioryczny...

9.5.Wariantypodstawowejfunkcjisplotowej... ........347

9.6.Strukturalnewyjścia...

9.7.Typydanych ..........................359

9.8.Efektywnealgorytmysplotu...

9.9.Cechylosowelubnienadzorowane

9.10.Neuronaukowepodstawysiecisplotowych

9.11.Siecisplotoweahistoriadeeplearningu..

10.Modelowaniesekwencyjne:siecirekurencyjne irekursywne373

10.1.Rozwijaniegrafówobliczeniowych. ..............375

10.2.Rekurencyjnesiecineuronowe

10.3.Dwukierunkowerekurencyjnesiecineuronowe ........393

10.4.Architekturykoder-dekoderisekwencjadosekwencji ....394

10.5.Głębokiesiecirekurencyjne

10.6.Rekursywnesiecineuronowe

10.7.Problemzzależnościamidługoterminowymi

10.8.Siecistanuecha

10.9.Nieszczelnejednostkiiinnestrategiedlawielu skaliczasowych .........................406

10.10. Długapamięćkrótkoterminowaiinnebramkowanesieci

10.11.Optymalizacjazależnościdługoterminowych

10.12.Pamięćjawna. .........................416

11.Metodologiapraktyczna421

11.1.Metrykiwydajności .......................422

11.2.Modeledomyślnejliniibazowej ................425

11.3.Decyzja,czyzbieraćwięcejdanych ..............426

11.4.Wybórhiperparametrów ....................428

11.5.Strategiedebugowania .....................437

11.6.Przykład:rozpoznawanieliczbwielocyfrowych...

12.1.Deeplearningwielkoskalowy

12.2.Rozpoznawanieobrazów

12.3.Rozpoznawaniemowy

12.4.Przetwarzaniejęzykanaturalnego

12.5.Innezastosowania

13.Liniowemodeleczynnikowe

13.1.ProbabilistycznaanalizaPCAianalizaczynnikowa

13.2.Analizaskładowychniezależnych(ICA)

13.3.Powolnaanalizacech

13.4.Rzadkiekodowanie

13.5.PoznawanierozmaitościwanaliziePCA. ..........506

14.Autokodery

14.1.Autokoderyniekompletne

14.2.Autokoderyzregularyzacją

14.3.Reprezentacyjnapotęga,rozmiarwarstwyigłębokość ....515

14.4.Stochastycznekoderyidekodery... ............516

14.5.Autokoderyzodszumianiem. .................517

14.6.Poznawanierozmaitościzużyciemautokoderów... ....522

14.7.Autokoderykurczliwe .....................527

14.8.Predykcyjnarzadkadekompozycja ..............530

14.9.Zastosowaniaautokoderów.. .................531

15.Poznawaniereprezentacji533

15.1.Zachłannenienadzorowaneszkoleniewstępnewarstwa powarstwie ...........................535

15.2.Transferpoznawaniaiadaptacjadziedziny ..........544

15.3.Częściowonadzorowaneoswabadzanieczynników przyczynowych. ........................548

15.4.Reprezentacjarozproszona ...................554

15.5.Wykładniczezyskizgłębokości ................560

15.6.Wskazówkidowykrywaniaprzyczynpodstawowych .....562

16.Strukturalnemodeleprobabilistycznedeeplearningu567

16.1.Trudnościwmodelowaniuniestrukturalnym .........568

16.2.Używaniegrafówdoopisustrukturymodelu .........572

16.3.Próbkowaniezmodeligraficznych... ............589

16.4.Zaletymodelowaniastrukturalnego ..............591

16.5.Poznawaniezależności.. ...................591

16.6.Wnioskowanieiwnioskowanieprzybliżone ..........592

16.7.Strukturalnemodeleprobabilistycznewujęciu deeplearningu .........................594

17.MetodyMonteCarlo599

17.1.PróbkowanieimetodyMonteCarlo ..............599

17.2.Próbkowanieistotnościowe.. .................601

17.3.MetodyMonteCarlozłańcuchemMarkowa... ......604

17.4.PróbkowanieGibbsa ......................608

17.5.Problemmieszaniamiędzyodseparowanymitrybami ....609

18.Zmaganiazfunkcjąpodziału615

18.1.Gradientwiarygodnościlogarytmicznej ............616

18.2. Stochastycznamaksymalnawiarygodnośćikontrastywna dywergencja... ........................617

18.3.Pseudowiarygodność ......................625

18.4.Dopasowywanieocenyistosunku ...............628

18.5.Dopasowywanieocenzodszumianiem

18.6.Estymacjakontrastywnaszumu ................630

18.7.Szacowaniefunkcjipodziału..

19.Wnioskowanieprzybliżone

19.1.Wnioskowaniejakooptymalizacja

19.2.Maksymalizacjaoczekiwania

19.3.WnioskowanieMAPirzadkiekodowanie

19.4.Wariacyjnewnioskowanieiuczeniesię

19.5.Poznawaniewnioskowaniaprzybliżonego

20.Głębokiemodelegeneratywne

20.1.MaszynyBoltzmanna ......................665

20.2.OgraniczonemaszynyBoltzmanna ..............667

20.3.Głębokiesieciprzekonań..

20.4.GłębokiemaszynyBoltzmanna ................674

20.5.MaszynyBoltzmannadladanychrzeczywistych..

20.6.SplotowemaszynyBoltzmanna ................695

20.7. MaszynyBoltzmannadlastrukturalnychlubsekwencyjnych wartościwynikowych

20.8.InnemaszynyBoltzmanna ...................698

20.9.Propagacjawstecznaprzezlosowedziałania

20.10.Skierowanesiecigeneratywne

20.11.Pobieraniepróbekzautokoderów

20.12.Generatywnesiecistochastyczne

20.13.Inneschematygenerowania

20.14.Szacowaniemodeligeneratywnych

20.15.Konkluzja

natychmiastwidzimy,żemaksymalizacjalogarytmicznejwiarygodnościwzględem w dajewwynikutęsamąestymacjęparametrów w ,jaktorobi minimalizacjabłęduśredniokwadratowego.Obakryteriamająróżnewartości,aletosamopołożenieoptimum.UzasadniatokorzystaniezMSEjako proceduryestymacjimaksymalnejwiarygodności.Jakzobaczymy,estymator maksymalnejwiarygodnościmakilkapożądanychwłaściwości.

5.5.2.Właściwościmaksymalnejwiarygodności

Podstawową zaletąestymatoramaksymalnejwiarygodnościjestfakt,że możnagopokazaćjakonajlepszyestymatorasymptotycznie,jakoliczbę przykładów m →∞,wsensiejegostopniazbieżnościwmiaręwzrostu m.

Przyodpowiednichwarunkachestymatormaksymalnejwiarygodności mawłaściwośćspójności(patrzpunkt5.4.5),cooznacza,żewmiaręjak liczbaprzykładówszkoleniowychzbliżasiędonieskończoności,estymacja maksymalnejwiarygodnościjestzbieżnadoprawdziwejwartościparametru. Tewarunkisąnastępujące:

• prawdziwyrozkład pdata musileżećwobrębierodzinymodeli pmodel (·; θ );wprzeciwnymprzypadkużadenestymatorniemożeodtworzyć pdata ;

• prawdziwyrozkład pdata musiodpowiadaćdokładniejednejwartości θ ;wprzeciwnymprzypadkumaksymalnawiarygodnośćpozwala odtworzyćpoprawne pdata ,aleniebędziewstanieokreślić,którazwartości θ byłaużywanawprocesiegenerowaniadanych.

Możnastądwyprowadzićinnezasady,pozaestymatoremmaksymalnej wiarygodności.Wieleznichmatęsamąwłaściwość:sąestymatoramispójnymi.Spójneestymatorymogąjednakróżnićsięodsiebie efektywnością statystyczną,cooznacza,żemogądawaćniższybłąduogólnieniadlastałej liczbypróbek m,alboekwiwalentniemogąwymagaćmniejprzykładówdo uzyskaniastałegopoziomubłęduuogólnienia.

Efektywnośćstatystycznajestzwykleanalizowanadla przypadkuparametrycznego (jakwregresjiliniowej),gdzienaszymcelemjestestymacja wartościparametru(przyzałożeniu,żemożnazidentyfikowaćprawdziwy parametr),aniewartościfunkcji.Sposobemzmierzenia,jakbliskoprawdziwychparametrówsięznajdujemy,jestoczekiwanybłądśredniokwadratowy, obliczanyjakopodniesionadokwadraturóżnicamiędzywartościamiestymowanejiprawdziwejwartościparametru,gdzieoczekiwaniedotyczy m próbek

szkoleniowychzrozkładugenerującegodane.Tenparametrycznybłądśredniokwadratowymalejezewzrostem m,adladużych m kresdolnyRao-Craméra (Rao1945,Cramér1946)pokazuje,żeżadenspójnyestymatorniemaniższej wartościMSEniżestymatormaksymalnejwiarygodności.

Ztychpowodów(spójnościiefektywności)maksymalnawiarygodnośćjest częstotraktowanajakopreferowanyestymatorwsystemachuczącychsię.Gdy liczbaprzykładówjestnatylemała,żepowodujezachowaniazwiązaneznadmiernymdopasowaniem,strategieregularyzacyjne,jakzanikaniewagi,mogą byćużywanedouzyskaniaobciążonejwersjimaksymalnejwiarygodności, któramamniejsząwariancjęprzyograniczonychdanychszkoleniowych.

5.6.StatystykiBayesa

Dotądomawialiśmy statystykęczęstościową orazpodejścieopartenaestymacjipojedynczejwartości θ ,awięcwszelkieprognozybyłyopartena jednejestymacji.Innympodejściemjestrozważenieprzytworzeniuprognozy wszystkichmożliwychwartości θ .Jestonodziedziną statystykiBayesa

Jaktoomówionowpunkcie5.4.1,perspektywaczęstościowapolega natym,żeprawdziwawartośćparametru θ jestustalona,lecznieznana, natomiastestymacjapunktu ˆ θ jestzmiennąlosową,zuwaginato,żejest funkcjązbiorudanych(któryjestuważanyzalosowy).

Bayesowskiespojrzenienastatystykęjestcałkieminne.Wykorzystujeono prawdopodobieństwojakoodzwierciedleniestopniapewnościstanuwiedzy. Zbiórdanychjestbezpośrednioobserwowany, więcniejestlosowy.Zdrugiej stronyprawdziwawartośćparametru θ jestnieznanalubniepewna,awięc jestreprezentowanajakozmiennalosowa.

Zanimzaobserwujemydane,zaprezentujmynasząwiedzęnatemat θ ,wykorzystując rozkładaprioryczny p(θ ) (czasamiokreślanypoprostujako aprioryczny).Ogólniepraktycysystemówuczącychsięwybierajątakirozkład wstępny,któryjestdośćszeroki(tj.owysokiejentropii),abyodzwierciedlić wysokistopieńniepewnościcodowartości θ ,zanimzaobserwująjakiekolwiek dane.Naprzykładmożnazałożyć apriori,że θ leżywpewnymskończonym zakresielubwielkości,orozkładziejednostajnym.Wielerozkładówwstępnychodzwierciedlanatomiastpreferencjedla„prostszych”rozwiązań(jak współczynnikimniejszejwielkościlubfunkcjabliższastałej).

Przyjmijmyteraz,żemamyzbiórpróbekdanych {x(1) ,...,x(m) }.Możemy ustalićwpływdanychnanaszeprzekonanienatemat θ ,łączączesobą wiarygodnośćdanych p(x(1) ,...,x(m) | θ ) zprawdopodobieństwemwstępnym

Ponieważwarstwakońcowasiecimożepoznaćprzekształcenieliniowe,możemychciećusunąćwszystkiezwiązkiliniowemiędzyjednostkamiwobrębie warstwy.JesttowłaśniepodejścieprzyjęteprzezDesjardinsetal.(2015),którzydaliinspiracjędonormalizacjipakietowej.Niestetyeliminacjawszystkich liniowychinterakcjijestznaczniebardziejkosztownaniżstandaryzacjaśredniejarytmetycznejiodchyleniastandardowegokażdejpojedynczejjednostki, więcjakdotądnormalizacjapakietowapozostajenajbardziejpraktycznym podejściem.

Normalizacjaśredniejarytmetycznejiodchyleniastandardowegojednostki możezmniejszyćmocekspresjiwyrażanejprzezsiećneuronowązawierającą tęjednostkę.Abyutrzymaćtęmoc,częstozastępujesiępakietaktywacji ukrytychjednostek H przez γH + β zamiastpoprostuznormalizowanej H .Zmienne γ i β topoznaneparametry,którepozwalają,abynowa zmiennamiaładowolnąśredniąarytmetycznąiodchyleniestandardowe.Na pierwszyrzutokamożesiętowydawaćbezużyteczne–pocoustalaliśmy średniąarytmetycznąna 0,anastępniewprowadzaliśmyparametr,który pozwalacofnąćjąnadowolnąarbitralnąwartość β ?Ponieważnowaparametryzacjamożereprezentowaćtęsamąrodzinęfunkcjiwejścia,jakstara parametryzacja,aletanowamainnądynamikęuczeniasię.Wstarejparametryzacjiśredniaarytmetyczna H byłazdeterminowanaprzezskomplikowane interakcjemiędzyparametramiwwarstwachponiżej H .Wnowejparametryzacjiśredniaarytmetyczna γH + β jestzdeterminowanawyłącznieprzez β .Nowaparametryzacjajestznaczniełatwiejszadouczeniazespadkiem gradientu.

Większośćwarstwsiecineuronowejprzyjmujepostać φ(XW (+b),gdzie φ jestpewnąustalonąnieliniowąfunkcjąaktywacji,jakpoprawioneprzekształcenieliniowe.Możemyoczywiściezastanawiaćsię,czynależystosować normalizacjępakietowądlawejścia X lubdoprzekształconejwartości XW + b IoffeiSzegedy(2015)zalecajątodrugie.Konkretniej XW + b powinno zostaćzastąpioneprzezznormalizowanąwersję XW .Składnikobciążenia powinienzostaćpominięty,gdyżstajesięonnadmiarowyprzyzastosowaniu przezreparametryzacjęnormalizacjipakietowejparametru β .Danewejściowedowarstwysązwyklewynikaminieliniowejfunkcjiaktywacji,jak poprawionafunkcjaliniowazpoprzedniejwarstwy.Statystykidlawejścia sąwięcmniejgaussowskieimniejpodatnenastandaryzacjęprzezdziałania liniowe.

Wsieciachsplotowychopisanychwrozdziale9ważnejestzastosowanietej samejnormalizacji μ i σ wkażdejlokalizacjiprzestrzennejnaodwzorowaniu cech,takabystatystykiodwzorowaniapozostałytakiesameniezależnieod położeniaprzestrzennego.

8.7.2.Spadekwspółrzędnych

Wniektórychprzypadkachmożnaszybkorozwiązaćproblemoptymalizacyjny,dzielącgonaoddzielnefragmenty.Jeśliminimalizujemy f (x) względem jednejzmiennej xi ,następnieminimalizujemyjąwzględeminnejzmiennej xj itd.,powtarzająctocykliczniedlawszystkichzmiennych,tomamypewnośćdojściadominimum(lokalnego).Tapraktykajestznanajako spadek współrzędnych,gdyżoptymalizujemywspółrzędnepojednej.Uogólniając, blokowyspadekwspółrzędnych odnosisiędojednoczesnejminimalizacji względempodzbioruzmiennych.Określenie„spadekwspółrzędnych”jest częstoużywanewodniesieniudoblokowegospadkuwspółrzędnych,atakże dościśleindywidualnegospadkuwspółrzędnych.

Spadekwspółrzędnychjestnajbardziejcelowy,gdyróżnezmiennewproblemieoptymalizacyjnymmogąbyćjasnopodzielonenagrupy,któregrają względnieizolowaneodsiebierole,lubgdyoptymalizacjawzględemjednej grupyzmiennychjestznaczniebardziejwydajnaniżoptymalizacjawzględem wszystkichzmiennych.Rozważmydlaprzykładufunkcjękosztów:

(H , W )= i,j |Hi,j

Tafunkcjaopisujeproblemuczeniasię,określanyjakorzadkiekodowanie, gdziecelemjestznalezieniemacierzywag W ,któremogąliniowozdekodować macierzaktywacjiwartości H ,abydokonaćrekonstrukcjizbioruszkoleniowego X .Większośćzastosowaćrzadkiegokodowaniaobejmujeteżzanikanie wagilubograniczenienanormykolumn W ,abyzapobiecpatologicznym rozwiązaniomzniezwyklemałymiwartościami H idużymi W .

Funkcja J niejestwypukła.Jednakmożemypodzielićwejściadoalgorytmuszkoleniowegonadwazbiory:parametrysłownikowe W orazreprezentacjekodu H .Minimalizacjafunkcjiceluwzględemjednegoztych zbiorówzmiennychtoproblemwypukły.Blokowyspadekwspółrzędnych dajewięcstrategięoptymalizacji,którapozwalanamnaużycieskutecznego algorytmuoptymalizacyjnegoprzezprzełączeniesięmiędzyoptymalizacją Wprzyustalonym H ,apotemoptymalizację H przyustalonym W

Spadekwspółrzędnychniejestzbytdobrąstrategią,gdywartośćjednej zezmiennychsilniewpływanawartośćoptymalnąinnejzmiennej,jakmato miejscewfunkcji f (x)=(x1 x2 )2 + α(x2 1 + x2 2 ),gdzie α jestdodatniąstałą. Pierwszyskładnikzachęcaobiezmiennedoprzyjęciapodobnychwartości, adrugidoprzyjęciawartościbliskich0.Rozwiązaniemjestustawienieobu na0.MetodaNewtonamożerozwiązaćproblemwjednymkroku,gdyżjest tododatniookreślonyproblemkwadratowy.Jednakdlamałychwartości

zbytprzydatny,ponieważnieimplikujeżadnychniezależności.Gdyreprezentujemyrozkładprawdopodobieństwazapomocągrafu,chcemywybrać takigraf,któryimplikujejaknajwięcejniezależności,nieimplikującżadnych niezależności,któretaknaprawdęnieistnieją.Ztegopunktuwidzenianiektórerozkładymożnareprezentowaćbardziejwydajnie,używającmodeli skierowanych,natomiastinne–używającmodelinieskierowanych.Innymi słowy,modeleskierowanepozwalajązakodowaćpewneniezależności,których zakodowaćniepotrafiąmodelenieskierowane–i viceversa

Modeleskierowanemogąużywaćjednego,konkretnegorodzajupodstruktury,którejmodelenieskierowaneniepotrafiąreprezentowaćdoskonale.Ta podstrukturajestnazywana niemoralnością (ang. immorality ).Struktura tawystępuje,gdydwiezmiennelosowe,ai b,sąrodzicamitrzeciejzmiennej losowej, c,iniemakrawędzibezpośredniołączącejai b wżadnymkierunku. (Nazwa„niemoralność”możewydawaćsiędziwna;ukutojąwliteraturze omodelachgraficznychjakożartnatematniezamężnychrodziców).Aby przekonwertowaćmodelskierowanyzgrafem D namodelnieskierowany, musimyutworzyćnowygraf U .Dlakażdejparyzmiennych x i y dodajemy nieskierowanąkrawędźłączącą x i y z U ,jeślijestskierowanakrawędź(wdowolnymkierunku)łącząca x i y w D albojeśli x i y sąrodzicamiw D trzeciej zmiennej z.Wynikowygraf U to grafumoralniony (ang. moralizedgraph ). Narysunku16.11pokazanoprzykładyprzekształcaniamodeliskierowanych nanieskierowanepoprzezmoralizację.

Podobniemodelenieskierowanemogązawieraćpodstruktury,których żadenmodelskierowanyniemożezaprezentowaćperfekcyjnie.Wszczególnościskierowanygraf D niemożeuchwycićwszystkichwarunkowych niezależnościimplikowanych przeznieskierowanygraf U ,jeśli U zawiera pętlę odługościwiększejniżtrzy,chybażepętlatazawierarównież cięciwę (ang. chord ).Pętlatosekwencjazmiennychpołączonychprzez nieskierowanekrawędzie,aostatniazmiennawtejsekwencjijestpołączona zpowrotemzpierwszązmiennąwsekwencji.Cięciwatopołączeniemiędzy dwiemaniekolejnymizmiennymiwsekwencjitworzącejpętlę.Jeśli U ma pętleodługościczterylubwięcejiniezawierająonecięciw,musimyje dodać,abymożnabyłowykonaćprzekształcenienamodelskierowany.Dodanietychcięciwoznaczausunięciepewnychinformacjioniezależności, którezostałyzakodowanewgrafie U .Grafskonstruowanyprzezdodanie cięciwdo U jestnazywany cięciwowym (ang. chordal lub triangulated ), awszystkiepętlemożnaopisaćzapomocąmniejszych,trójkątnychpętli. Abyzbudowaćskierowanygraf D zgrafucięciwowego,musimyrównież przypisaćkierunkikrawędziom.Robiącto,niemożemyutworzyćskierowanegocykluw D albowynikniezdefiniujeprawidłowegoskierowanego

1 v2 v3

Rysunek16.11.Przykładykonwersjimodeliskierowanych(górnywiersz)namodele nieskierowane(dolnywiersz)poprzezkonstruowanieumoralnionychgrafów.Polewej: tenprostyłańcuchmożnaprzekształcićnagrafumoralniony,poprostuzamieniając krawędzieskierowanenanieskierowane.Wynikowymodelnieskierowanyimplikuje dokładnietakisamzbiórniezależnościiniezależnościwarunkowych.Naśrodku:ten graftonajprostszymodelskierowany,któregoniemożnaprzekształcićnamodel nieskierowany,nietracącpewnychniezależności.Graftenskładasięwcałościzjednej niemoralności.Ponieważai b torodzice c,sąpołączoneaktywnąścieżką,gdy c jest obserwowane.Abyuchwycićtęzależność,modelnieskierowanymusizawieraćklikę obejmującąwszystkietrzyzmienne.Klicetejnieudajesięzakodowaćfaktu,że a⊥b. Poprawej:ogólniemoralizacjamożespowodowaćdodaniewielukrawędzidografu, przezcoutraconezostaniewieleimplikowanych niezależności.Naprzykładtengraf rzadkiegokodowaniawymagadodaniakrawędziumoralniającychmiędzykażdą parąjednostekukrytych,tymsamymwprowadzająckwadratowąliczbęnowych bezpośrednichzależności

modeluprobabilistycznego.Jednymzesposobównaprzypisaniekierunków dokrawędziw D jestnarzucenieuporządkowaniazmiennymlosowym,anastępnienakierowaniekażdejkrawędzizwęzła,którywuporządkowaniu występujewcześniejdowęzławystępującegopóźniej.Przykładpokazanona rysunku16.12.

Turn static files into dynamic content formats.

Create a flipbook
Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.
100617627 by WN PWN - Issuu