Spistreści
1.Wprowadzenie
1.1.Ktopowinienprzeczytaćtęksiążkę?... ..........9
1.2.Historycznetrendydeeplearningu ..............11
IPodstawymatematykistosowanejisystemówuczącychsię27
2.Algebraliniowa
2.1.Skalary,wektory,macierzeitensory ..............29
2.2.Mnożeniemacierzyiwektorów.
2.3.Macierzejednostkoweiodwrotne
2.4.Zależnośćliniowaizakres ...................35
2.5.Normy ..............................37
2.6.Macierzeiwektoryspecjalne
2.7.Rozkładnawartościwłasne
2.8.Dekompozycjawartościosobliwej
2.9.Uogólnionamacierzodwrotna(Moore’a–Penrose’a). ....43
2.10.Operatorśladowy ........................44
2.11.Wyznacznik ...........................45
2.12.Przykład:analizagłównychskładowych. ..........45
3.Prawdopodobieństwoiteoriainformacji
3.1.Dlaczegoprawdopodobieństwo? ................52
3.2.Zmiennelosowe .........................54
3.3.Rozkładyprawdopodobieństwa..
3.4.Prawdopodobieństwobrzegowe ................56
3.5.Prawdopodobieństwowarunkowe
3.6.Regułałańcuchowawprawdopodobieństwiewarunkowym.57
3.7.Niezależnośćorazniezależnośćwarunkowa ..........58
3.8.Wartośćoczekiwana,wariancjaikowariancja
3.9.Znanerozkładyprawdopodobieństwa .............60
3.10.Użytecznecechyelementarnychfunkcji ............65
3.11.PrawoBayesa ..........................68
3.12.Techniczneszczegółyzmiennychciągłych... ........68
3.13.Teoriainformacji ........................70
3.14.Strukturalnemodeleprobabilistyczne
4.Obliczenianumeryczne77
4.1.Nadmiariniedomiar ......................77
4.2.Złeuwarunkowania .......................79
4.3.Optymalizacjagradientowa ..................79
4.4.Optymalizacjazograniczeniami.. ..............89
4.5.Przykład:liniowametodanajmniejszychkwadratów ....92
5.Podstawysystemówuczącychsię95
5.1.Algorytmyuczeniasię .....................96
5.2.Pojemność,nadmiernedopasowanieiniedopasowanie ....108
5.3.Hiperparametryizbiorywalidacyjne. ............118
5.4.Estymatory,obciążenieiwariancja ..............120
5.5.Metodamaksymalnejwiarygodności .............129
5.6.StatystykiBayesa ........................133
5.7.Algorytmynadzorowanegouczeniasię ............138
5.8.Algorytmynienadzorowanegouczeniasię. ..........143
5.9.Metodagradientustochastycznego.. ............150
5.10.Tworzeniealgorytmudlasystemuuczącegosię ........152
5.11.Wyzwaniamotywującedeeplearning .............153
IIGłębokiesieci:nowoczesnepraktyki163
6.Głębokiesiecijednokierunkowe165
6.1.Przykład:uczeniesięfunkcjiXOR ..............168
6.2.Uczeniesięopartenagradiencie ................173
6.3.Jednostkiukryte ........................188
6.4.Projektarchitektury ......................195
6.5.Propagacjawstecznaiinnealgorytmyróżniczkowania ....201
6.6.Uwagihistoryczne .......................221
7.Regularyzacjawdeeplearningu225
7.1.Standardowekarydlaparametrów ..............227
7.2.Standardowekaryjakooptymalizacjazograniczeniami...234
7.3.Regularyzacjaiproblemyniedoograniczone .........236
7.4.Powiększaniezbiorudanych ..................237
7.5.Odpornośćnaszum.. .....................239
7.6.Uczeniesięczęściowonadzorowane.. ............241
7.7.Uczeniesięwielozadaniowe ...................242
7.8.Wczesnezatrzymanie. .....................243
7.9.Wiązanieiwspółdzielenieparametrów ............250
7.10.Rzadkowypełnionereprezentacje ...............252
7.11.Baggingiinnemetodyzespołowe. ..............254
7.12.Odrzucanie ...........................256
7.13.Szkolenieantagonistyczne ...................266
7.14. Odległośćstyczna,propagacjastycznejorazklasyfikator stycznejdorozmaitości .....................268
8.Optymalizacjawceluszkoleniagłębokichmodeli273
8.1.Czymuczeniesięróżnisięodczystejoptymalizacji .....274
8.2.Wyzwaniazwiązanezoptymalizacjąsiecineuronowej ....281
8.3.Podstawowealgorytmy .....................293
8.4.Strategienadawaniaparametromwartościpoczątkowych..299
8.5.Algorytmyzadaptacyjnąszybkościąuczeniasię .......306
8.6.Aproksymacyjnemetodydrugiegorzędu ...........310
8.7.Strategieoptymalizacjiimeta-algorytmy. ..........317
9.Siecisplotowe331
9.1.Splotjakodziałanie .......................332
9.2.Uzasadnienie ..........................334
9.3.Redukcja
9.4.Splotiredukcjajakonieskończeniesilnyrozkład aprioryczny...
9.5.Wariantypodstawowejfunkcjisplotowej... ........347
9.6.Strukturalnewyjścia...
9.7.Typydanych ..........................359
9.8.Efektywnealgorytmysplotu...
9.9.Cechylosowelubnienadzorowane
9.10.Neuronaukowepodstawysiecisplotowych
9.11.Siecisplotoweahistoriadeeplearningu..
10.Modelowaniesekwencyjne:siecirekurencyjne irekursywne373
10.1.Rozwijaniegrafówobliczeniowych. ..............375
10.2.Rekurencyjnesiecineuronowe
10.3.Dwukierunkowerekurencyjnesiecineuronowe ........393
10.4.Architekturykoder-dekoderisekwencjadosekwencji ....394
10.5.Głębokiesiecirekurencyjne
10.6.Rekursywnesiecineuronowe
10.7.Problemzzależnościamidługoterminowymi
10.8.Siecistanuecha
10.9.Nieszczelnejednostkiiinnestrategiedlawielu skaliczasowych .........................406
10.10. Długapamięćkrótkoterminowaiinnebramkowanesieci
10.11.Optymalizacjazależnościdługoterminowych
10.12.Pamięćjawna. .........................416
11.Metodologiapraktyczna421
11.1.Metrykiwydajności .......................422
11.2.Modeledomyślnejliniibazowej ................425
11.3.Decyzja,czyzbieraćwięcejdanych ..............426
11.4.Wybórhiperparametrów ....................428
11.5.Strategiedebugowania .....................437
11.6.Przykład:rozpoznawanieliczbwielocyfrowych...
12.1.Deeplearningwielkoskalowy
12.2.Rozpoznawanieobrazów
12.3.Rozpoznawaniemowy
12.4.Przetwarzaniejęzykanaturalnego
12.5.Innezastosowania
13.Liniowemodeleczynnikowe
13.1.ProbabilistycznaanalizaPCAianalizaczynnikowa
13.2.Analizaskładowychniezależnych(ICA)
13.3.Powolnaanalizacech
13.4.Rzadkiekodowanie
13.5.PoznawanierozmaitościwanaliziePCA. ..........506
14.Autokodery
14.1.Autokoderyniekompletne
14.2.Autokoderyzregularyzacją
14.3.Reprezentacyjnapotęga,rozmiarwarstwyigłębokość ....515
14.4.Stochastycznekoderyidekodery... ............516
14.5.Autokoderyzodszumianiem. .................517
14.6.Poznawanierozmaitościzużyciemautokoderów... ....522
14.7.Autokoderykurczliwe .....................527
14.8.Predykcyjnarzadkadekompozycja ..............530
14.9.Zastosowaniaautokoderów.. .................531
15.Poznawaniereprezentacji533
15.1.Zachłannenienadzorowaneszkoleniewstępnewarstwa powarstwie ...........................535
15.2.Transferpoznawaniaiadaptacjadziedziny ..........544
15.3.Częściowonadzorowaneoswabadzanieczynników przyczynowych. ........................548
15.4.Reprezentacjarozproszona ...................554
15.5.Wykładniczezyskizgłębokości ................560
15.6.Wskazówkidowykrywaniaprzyczynpodstawowych .....562
16.Strukturalnemodeleprobabilistycznedeeplearningu567
16.1.Trudnościwmodelowaniuniestrukturalnym .........568
16.2.Używaniegrafówdoopisustrukturymodelu .........572
16.3.Próbkowaniezmodeligraficznych... ............589
16.4.Zaletymodelowaniastrukturalnego ..............591
16.5.Poznawaniezależności.. ...................591
16.6.Wnioskowanieiwnioskowanieprzybliżone ..........592
16.7.Strukturalnemodeleprobabilistycznewujęciu deeplearningu .........................594
17.MetodyMonteCarlo599
17.1.PróbkowanieimetodyMonteCarlo ..............599
17.2.Próbkowanieistotnościowe.. .................601
17.3.MetodyMonteCarlozłańcuchemMarkowa... ......604
17.4.PróbkowanieGibbsa ......................608
17.5.Problemmieszaniamiędzyodseparowanymitrybami ....609
18.Zmaganiazfunkcjąpodziału615
18.1.Gradientwiarygodnościlogarytmicznej ............616
18.2. Stochastycznamaksymalnawiarygodnośćikontrastywna dywergencja... ........................617
18.3.Pseudowiarygodność ......................625
18.4.Dopasowywanieocenyistosunku ...............628
18.5.Dopasowywanieocenzodszumianiem
18.6.Estymacjakontrastywnaszumu ................630
18.7.Szacowaniefunkcjipodziału..
19.Wnioskowanieprzybliżone
19.1.Wnioskowaniejakooptymalizacja
19.2.Maksymalizacjaoczekiwania
19.3.WnioskowanieMAPirzadkiekodowanie
19.4.Wariacyjnewnioskowanieiuczeniesię
19.5.Poznawaniewnioskowaniaprzybliżonego
20.Głębokiemodelegeneratywne
20.1.MaszynyBoltzmanna ......................665
20.2.OgraniczonemaszynyBoltzmanna ..............667
20.3.Głębokiesieciprzekonań..
20.4.GłębokiemaszynyBoltzmanna ................674
20.5.MaszynyBoltzmannadladanychrzeczywistych..
20.6.SplotowemaszynyBoltzmanna ................695
20.7. MaszynyBoltzmannadlastrukturalnychlubsekwencyjnych wartościwynikowych
20.8.InnemaszynyBoltzmanna ...................698
20.9.Propagacjawstecznaprzezlosowedziałania
20.10.Skierowanesiecigeneratywne
20.11.Pobieraniepróbekzautokoderów
20.12.Generatywnesiecistochastyczne
20.13.Inneschematygenerowania
20.14.Szacowaniemodeligeneratywnych
20.15.Konkluzja
natychmiastwidzimy,żemaksymalizacjalogarytmicznejwiarygodnościwzględem w dajewwynikutęsamąestymacjęparametrów w ,jaktorobi minimalizacjabłęduśredniokwadratowego.Obakryteriamająróżnewartości,aletosamopołożenieoptimum.UzasadniatokorzystaniezMSEjako proceduryestymacjimaksymalnejwiarygodności.Jakzobaczymy,estymator maksymalnejwiarygodnościmakilkapożądanychwłaściwości.
5.5.2.Właściwościmaksymalnejwiarygodności
Podstawową zaletąestymatoramaksymalnejwiarygodnościjestfakt,że możnagopokazaćjakonajlepszyestymatorasymptotycznie,jakoliczbę przykładów m →∞,wsensiejegostopniazbieżnościwmiaręwzrostu m.
Przyodpowiednichwarunkachestymatormaksymalnejwiarygodności mawłaściwośćspójności(patrzpunkt5.4.5),cooznacza,żewmiaręjak liczbaprzykładówszkoleniowychzbliżasiędonieskończoności,estymacja maksymalnejwiarygodnościjestzbieżnadoprawdziwejwartościparametru. Tewarunkisąnastępujące:
• prawdziwyrozkład pdata musileżećwobrębierodzinymodeli pmodel (·; θ );wprzeciwnymprzypadkużadenestymatorniemożeodtworzyć pdata ;
• prawdziwyrozkład pdata musiodpowiadaćdokładniejednejwartości θ ;wprzeciwnymprzypadkumaksymalnawiarygodnośćpozwala odtworzyćpoprawne pdata ,aleniebędziewstanieokreślić,którazwartości θ byłaużywanawprocesiegenerowaniadanych.
Możnastądwyprowadzićinnezasady,pozaestymatoremmaksymalnej wiarygodności.Wieleznichmatęsamąwłaściwość:sąestymatoramispójnymi.Spójneestymatorymogąjednakróżnićsięodsiebie efektywnością statystyczną,cooznacza,żemogądawaćniższybłąduogólnieniadlastałej liczbypróbek m,alboekwiwalentniemogąwymagaćmniejprzykładówdo uzyskaniastałegopoziomubłęduuogólnienia.
Efektywnośćstatystycznajestzwykleanalizowanadla przypadkuparametrycznego (jakwregresjiliniowej),gdzienaszymcelemjestestymacja wartościparametru(przyzałożeniu,żemożnazidentyfikowaćprawdziwy parametr),aniewartościfunkcji.Sposobemzmierzenia,jakbliskoprawdziwychparametrówsięznajdujemy,jestoczekiwanybłądśredniokwadratowy, obliczanyjakopodniesionadokwadraturóżnicamiędzywartościamiestymowanejiprawdziwejwartościparametru,gdzieoczekiwaniedotyczy m próbek
szkoleniowychzrozkładugenerującegodane.Tenparametrycznybłądśredniokwadratowymalejezewzrostem m,adladużych m kresdolnyRao-Craméra (Rao1945,Cramér1946)pokazuje,żeżadenspójnyestymatorniemaniższej wartościMSEniżestymatormaksymalnejwiarygodności.
Ztychpowodów(spójnościiefektywności)maksymalnawiarygodnośćjest częstotraktowanajakopreferowanyestymatorwsystemachuczącychsię.Gdy liczbaprzykładówjestnatylemała,żepowodujezachowaniazwiązaneznadmiernymdopasowaniem,strategieregularyzacyjne,jakzanikaniewagi,mogą byćużywanedouzyskaniaobciążonejwersjimaksymalnejwiarygodności, któramamniejsząwariancjęprzyograniczonychdanychszkoleniowych.
5.6.StatystykiBayesa
Dotądomawialiśmy statystykęczęstościową orazpodejścieopartenaestymacjipojedynczejwartości θ ,awięcwszelkieprognozybyłyopartena jednejestymacji.Innympodejściemjestrozważenieprzytworzeniuprognozy wszystkichmożliwychwartości θ .Jestonodziedziną statystykiBayesa
Jaktoomówionowpunkcie5.4.1,perspektywaczęstościowapolega natym,żeprawdziwawartośćparametru θ jestustalona,lecznieznana, natomiastestymacjapunktu ˆ θ jestzmiennąlosową,zuwaginato,żejest funkcjązbiorudanych(któryjestuważanyzalosowy).
Bayesowskiespojrzenienastatystykęjestcałkieminne.Wykorzystujeono prawdopodobieństwojakoodzwierciedleniestopniapewnościstanuwiedzy. Zbiórdanychjestbezpośrednioobserwowany, więcniejestlosowy.Zdrugiej stronyprawdziwawartośćparametru θ jestnieznanalubniepewna,awięc jestreprezentowanajakozmiennalosowa.
Zanimzaobserwujemydane,zaprezentujmynasząwiedzęnatemat θ ,wykorzystując rozkładaprioryczny p(θ ) (czasamiokreślanypoprostujako aprioryczny).Ogólniepraktycysystemówuczącychsięwybierajątakirozkład wstępny,któryjestdośćszeroki(tj.owysokiejentropii),abyodzwierciedlić wysokistopieńniepewnościcodowartości θ ,zanimzaobserwująjakiekolwiek dane.Naprzykładmożnazałożyć apriori,że θ leżywpewnymskończonym zakresielubwielkości,orozkładziejednostajnym.Wielerozkładówwstępnychodzwierciedlanatomiastpreferencjedla„prostszych”rozwiązań(jak współczynnikimniejszejwielkościlubfunkcjabliższastałej).
Przyjmijmyteraz,żemamyzbiórpróbekdanych {x(1) ,...,x(m) }.Możemy ustalićwpływdanychnanaszeprzekonanienatemat θ ,łączączesobą wiarygodnośćdanych p(x(1) ,...,x(m) | θ ) zprawdopodobieństwemwstępnym
Ponieważwarstwakońcowasiecimożepoznaćprzekształcenieliniowe,możemychciećusunąćwszystkiezwiązkiliniowemiędzyjednostkamiwobrębie warstwy.JesttowłaśniepodejścieprzyjęteprzezDesjardinsetal.(2015),którzydaliinspiracjędonormalizacjipakietowej.Niestetyeliminacjawszystkich liniowychinterakcjijestznaczniebardziejkosztownaniżstandaryzacjaśredniejarytmetycznejiodchyleniastandardowegokażdejpojedynczejjednostki, więcjakdotądnormalizacjapakietowapozostajenajbardziejpraktycznym podejściem.
Normalizacjaśredniejarytmetycznejiodchyleniastandardowegojednostki możezmniejszyćmocekspresjiwyrażanejprzezsiećneuronowązawierającą tęjednostkę.Abyutrzymaćtęmoc,częstozastępujesiępakietaktywacji ukrytychjednostek H przez γH + β zamiastpoprostuznormalizowanej H .Zmienne γ i β topoznaneparametry,którepozwalają,abynowa zmiennamiaładowolnąśredniąarytmetycznąiodchyleniestandardowe.Na pierwszyrzutokamożesiętowydawaćbezużyteczne–pocoustalaliśmy średniąarytmetycznąna 0,anastępniewprowadzaliśmyparametr,który pozwalacofnąćjąnadowolnąarbitralnąwartość β ?Ponieważnowaparametryzacjamożereprezentowaćtęsamąrodzinęfunkcjiwejścia,jakstara parametryzacja,aletanowamainnądynamikęuczeniasię.Wstarejparametryzacjiśredniaarytmetyczna H byłazdeterminowanaprzezskomplikowane interakcjemiędzyparametramiwwarstwachponiżej H .Wnowejparametryzacjiśredniaarytmetyczna γH + β jestzdeterminowanawyłącznieprzez β .Nowaparametryzacjajestznaczniełatwiejszadouczeniazespadkiem gradientu.
Większośćwarstwsiecineuronowejprzyjmujepostać φ(XW (+b),gdzie φ jestpewnąustalonąnieliniowąfunkcjąaktywacji,jakpoprawioneprzekształcenieliniowe.Możemyoczywiściezastanawiaćsię,czynależystosować normalizacjępakietowądlawejścia X lubdoprzekształconejwartości XW + b IoffeiSzegedy(2015)zalecajątodrugie.Konkretniej XW + b powinno zostaćzastąpioneprzezznormalizowanąwersję XW .Składnikobciążenia powinienzostaćpominięty,gdyżstajesięonnadmiarowyprzyzastosowaniu przezreparametryzacjęnormalizacjipakietowejparametru β .Danewejściowedowarstwysązwyklewynikaminieliniowejfunkcjiaktywacji,jak poprawionafunkcjaliniowazpoprzedniejwarstwy.Statystykidlawejścia sąwięcmniejgaussowskieimniejpodatnenastandaryzacjęprzezdziałania liniowe.
Wsieciachsplotowychopisanychwrozdziale9ważnejestzastosowanietej samejnormalizacji μ i σ wkażdejlokalizacjiprzestrzennejnaodwzorowaniu cech,takabystatystykiodwzorowaniapozostałytakiesameniezależnieod położeniaprzestrzennego.
8.7.2.Spadekwspółrzędnych
Wniektórychprzypadkachmożnaszybkorozwiązaćproblemoptymalizacyjny,dzielącgonaoddzielnefragmenty.Jeśliminimalizujemy f (x) względem jednejzmiennej xi ,następnieminimalizujemyjąwzględeminnejzmiennej xj itd.,powtarzająctocykliczniedlawszystkichzmiennych,tomamypewnośćdojściadominimum(lokalnego).Tapraktykajestznanajako spadek współrzędnych,gdyżoptymalizujemywspółrzędnepojednej.Uogólniając, blokowyspadekwspółrzędnych odnosisiędojednoczesnejminimalizacji względempodzbioruzmiennych.Określenie„spadekwspółrzędnych”jest częstoużywanewodniesieniudoblokowegospadkuwspółrzędnych,atakże dościśleindywidualnegospadkuwspółrzędnych.
Spadekwspółrzędnychjestnajbardziejcelowy,gdyróżnezmiennewproblemieoptymalizacyjnymmogąbyćjasnopodzielonenagrupy,któregrają względnieizolowaneodsiebierole,lubgdyoptymalizacjawzględemjednej grupyzmiennychjestznaczniebardziejwydajnaniżoptymalizacjawzględem wszystkichzmiennych.Rozważmydlaprzykładufunkcjękosztów:
(H , W )= i,j |Hi,j
Tafunkcjaopisujeproblemuczeniasię,określanyjakorzadkiekodowanie, gdziecelemjestznalezieniemacierzywag W ,któremogąliniowozdekodować macierzaktywacjiwartości H ,abydokonaćrekonstrukcjizbioruszkoleniowego X .Większośćzastosowaćrzadkiegokodowaniaobejmujeteżzanikanie wagilubograniczenienanormykolumn W ,abyzapobiecpatologicznym rozwiązaniomzniezwyklemałymiwartościami H idużymi W .
Funkcja J niejestwypukła.Jednakmożemypodzielićwejściadoalgorytmuszkoleniowegonadwazbiory:parametrysłownikowe W orazreprezentacjekodu H .Minimalizacjafunkcjiceluwzględemjednegoztych zbiorówzmiennychtoproblemwypukły.Blokowyspadekwspółrzędnych dajewięcstrategięoptymalizacji,którapozwalanamnaużycieskutecznego algorytmuoptymalizacyjnegoprzezprzełączeniesięmiędzyoptymalizacją Wprzyustalonym H ,apotemoptymalizację H przyustalonym W
Spadekwspółrzędnychniejestzbytdobrąstrategią,gdywartośćjednej zezmiennychsilniewpływanawartośćoptymalnąinnejzmiennej,jakmato miejscewfunkcji f (x)=(x1 x2 )2 + α(x2 1 + x2 2 ),gdzie α jestdodatniąstałą. Pierwszyskładnikzachęcaobiezmiennedoprzyjęciapodobnychwartości, adrugidoprzyjęciawartościbliskich0.Rozwiązaniemjestustawienieobu na0.MetodaNewtonamożerozwiązaćproblemwjednymkroku,gdyżjest tododatniookreślonyproblemkwadratowy.Jednakdlamałychwartości
zbytprzydatny,ponieważnieimplikujeżadnychniezależności.Gdyreprezentujemyrozkładprawdopodobieństwazapomocągrafu,chcemywybrać takigraf,któryimplikujejaknajwięcejniezależności,nieimplikującżadnych niezależności,któretaknaprawdęnieistnieją.Ztegopunktuwidzenianiektórerozkładymożnareprezentowaćbardziejwydajnie,używającmodeli skierowanych,natomiastinne–używającmodelinieskierowanych.Innymi słowy,modeleskierowanepozwalajązakodowaćpewneniezależności,których zakodowaćniepotrafiąmodelenieskierowane–i viceversa
Modeleskierowanemogąużywaćjednego,konkretnegorodzajupodstruktury,którejmodelenieskierowaneniepotrafiąreprezentowaćdoskonale.Ta podstrukturajestnazywana niemoralnością (ang. immorality ).Struktura tawystępuje,gdydwiezmiennelosowe,ai b,sąrodzicamitrzeciejzmiennej losowej, c,iniemakrawędzibezpośredniołączącejai b wżadnymkierunku. (Nazwa„niemoralność”możewydawaćsiędziwna;ukutojąwliteraturze omodelachgraficznychjakożartnatematniezamężnychrodziców).Aby przekonwertowaćmodelskierowanyzgrafem D namodelnieskierowany, musimyutworzyćnowygraf U .Dlakażdejparyzmiennych x i y dodajemy nieskierowanąkrawędźłączącą x i y z U ,jeślijestskierowanakrawędź(wdowolnymkierunku)łącząca x i y w D albojeśli x i y sąrodzicamiw D trzeciej zmiennej z.Wynikowygraf U to grafumoralniony (ang. moralizedgraph ). Narysunku16.11pokazanoprzykładyprzekształcaniamodeliskierowanych nanieskierowanepoprzezmoralizację.
Podobniemodelenieskierowanemogązawieraćpodstruktury,których żadenmodelskierowanyniemożezaprezentowaćperfekcyjnie.Wszczególnościskierowanygraf D niemożeuchwycićwszystkichwarunkowych niezależnościimplikowanych przeznieskierowanygraf U ,jeśli U zawiera pętlę odługościwiększejniżtrzy,chybażepętlatazawierarównież cięciwę (ang. chord ).Pętlatosekwencjazmiennychpołączonychprzez nieskierowanekrawędzie,aostatniazmiennawtejsekwencjijestpołączona zpowrotemzpierwszązmiennąwsekwencji.Cięciwatopołączeniemiędzy dwiemaniekolejnymizmiennymiwsekwencjitworzącejpętlę.Jeśli U ma pętleodługościczterylubwięcejiniezawierająonecięciw,musimyje dodać,abymożnabyłowykonaćprzekształcenienamodelskierowany.Dodanietychcięciwoznaczausunięciepewnychinformacjioniezależności, którezostałyzakodowanewgrafie U .Grafskonstruowanyprzezdodanie cięciwdo U jestnazywany cięciwowym (ang. chordal lub triangulated ), awszystkiepętlemożnaopisaćzapomocąmniejszych,trójkątnychpętli. Abyzbudowaćskierowanygraf D zgrafucięciwowego,musimyrównież przypisaćkierunkikrawędziom.Robiącto,niemożemyutworzyćskierowanegocykluw D albowynikniezdefiniujeprawidłowegoskierowanego
1 v2 v3
Rysunek16.11.Przykładykonwersjimodeliskierowanych(górnywiersz)namodele nieskierowane(dolnywiersz)poprzezkonstruowanieumoralnionychgrafów.Polewej: tenprostyłańcuchmożnaprzekształcićnagrafumoralniony,poprostuzamieniając krawędzieskierowanenanieskierowane.Wynikowymodelnieskierowanyimplikuje dokładnietakisamzbiórniezależnościiniezależnościwarunkowych.Naśrodku:ten graftonajprostszymodelskierowany,któregoniemożnaprzekształcićnamodel nieskierowany,nietracącpewnychniezależności.Graftenskładasięwcałościzjednej niemoralności.Ponieważai b torodzice c,sąpołączoneaktywnąścieżką,gdy c jest obserwowane.Abyuchwycićtęzależność,modelnieskierowanymusizawieraćklikę obejmującąwszystkietrzyzmienne.Klicetejnieudajesięzakodowaćfaktu,że a⊥b. Poprawej:ogólniemoralizacjamożespowodowaćdodaniewielukrawędzidografu, przezcoutraconezostaniewieleimplikowanych niezależności.Naprzykładtengraf rzadkiegokodowaniawymagadodaniakrawędziumoralniającychmiędzykażdą parąjednostekukrytych,tymsamymwprowadzająckwadratowąliczbęnowych bezpośrednichzależności
modeluprobabilistycznego.Jednymzesposobównaprzypisaniekierunków dokrawędziw D jestnarzucenieuporządkowaniazmiennymlosowym,anastępnienakierowaniekażdejkrawędzizwęzła,którywuporządkowaniu występujewcześniejdowęzławystępującegopóźniej.Przykładpokazanona rysunku16.12.