6 minute read

Umetna inteligenca vzredila reševalnega robotskega psa

Raziskovalci umetne inteligence z ameriške Univerze Stanford in njihovi kitajski kolegi s šanghajskega inštituta Qi Zhi so s poenostavljeno tehniko strojnega učenja ustvarili robotskega psa. Ta je v resničnem svetu sposoben skakati, plezati, se plaziti in se prebijati mimo fizičnih ovir kot še nikoli prej. S tem so robotom približali neverjetno atletsko inteligenco ljudi in živali.

Nekega dne bodo ob potresih, požarih, poplavah in jedrskih nesrečah morda prvi, ki se bodo odzvali in na pomoč ujetim priskočili robotski reševalni psi. Štirinožci na baterijski pogon bi s pomočjo računalniškega vida ocenili ovire in jih premagali s pomočjo pasjih spretnosti.

Za dosego tega plemenitega cilja so raziskovalci umetne inteligence iz Stanforda in inštituta Shanghai Qi Zhi razvili nov algoritem, ki temelji na vidu in pomaga robotskim psom, da se povzpnejo na visoke predmete, preskočijo vrzeli, se splazijo pod prag in se stisnejo skozi razpoke – in se nato odpravijo na naslednji izziv. Algoritem predstavlja robotove možgane.

Psu podoben robot, ki pleza čez neznano oviro z uporabo preprostega algoritma, ki spodbuja napredovanje z minimalnim naporom. Raziskovalci predstavljajo metodo, s katero lahko nizkocenovni štirinožni roboti izvajajo spretnosti parkour. Parkour je velik izziv za gibanje z nogami, ki od robotov zahteva hitro premagovanje različnih ovir, vključno s plezanjem, skakanjem, plazenjem, nagibanjem in tekom v zapletenih okoljih. Poudarek raziskovalnih dognanj je dvostopenjska metoda spodbujevalnega učenja, ki uporablja predhodno usposabljanje z mehkimi dinamičnimi omejitvami in fino nastavljanje s trdimi dinamičnimi omejitvami. Raziskovalci pokažejo, da lahko njihova metoda omogoča izvajanje spretnosti parkour na realnem robotu z uporabo vizualnega zaznavanja vgrajenega v robotu. Raziskovalci so parkour omogočili tako, da robot oviro poskuša premagati večkrat, če mu to sprva ne uspe. Robot se nauči pritiskati na oviro in si tako zagotovi dovolj prostora za nadaljnje poskuse. V ta namen so ustvarili tri stopnje učenja. Foto: Inštitut Shanghai Qi Zhi/ Univerza Stanford

»Avtonomija in obseg kompleksnih spretnosti, ki se jih je naučil naš štirikolesni robot, sta precej impresivna,« je povedala dr. Chelsea Finn, docentka računalništva na Univerzi Stanford. »In ustvarili smo ga z uporabo poceni robotov, ki so že na voljo – pravzaprav dveh različnih robotov, ki sta že na voljo,« je dodala soavtorica znanstvenega članka. Dr. Finnova je članek predstavila v Atlanti na mednarodni Konferenci o učenju robotov CoRL, osredotočeni na presečišče robotike in strojnega učenja.

Ključni napredek, pravijo avtorji, je v tem, da je njihov robotski pes avtonomen – to pomeni, da je sposoben oceniti fizične izzive in si zamisliti, nato pa izvesti širok nabor spretnostnih veščin, ki temeljijo zgolj na ovirah, ki jih vidi pred seboj.

»Pri tem združujemo zaznavanje in nadzor, pri čemer uporabljamo slike iz globinske kamere, nameščene na robotu, in strojno učenje za obdelavo vseh teh vhodnih podatkov in premikanje nog, da bi se premaknili čez, pod in okoli ovir,« je pojasnil Zipeng Fu, doktorski kandidat v stanfordskem laboratoriju IRIS (Intelligence through Robotic Interaction at Scale) in prvi avtor študije skupaj z Ziwenom Zhuangom z inštituta Qi Zhi.

Poenostavitev za optimizacijo

Njihov robotski pes ni prvi, ki bi pokazal takšno okretnost v panogi atletike »parkour«, vendar je prvi, ki združuje samozadostnost s širokim naborom spretnosti.

»Naši roboti posedujejo vid in avtonomijo – atletsko inteligenco, ki jim omogoča, da ocenijo izziv ter samostojno izberejo in izvedejo spretnosti parkour glede na trenutne zahteve,« je dejal Fu.

Obstoječe metode učenja pogosto temeljijo na zapletenih sistemih nagrajevanja, ki jih je treba natančno prilagoditi določenim fizičnim oviram. Zato jih ni mogoče dobro prilagoditi novim ali neznanim okoljem. Drugi sorodni pristopi se učijo z uporabo podatkov iz resničnega sveta, da bi posnemali spretnosti agilnosti drugih živali. Ti robopsi nimajo širokega nabora spretnosti in nimajo vidnih sposobnosti novih robopsov. Obe obstoječi metodi sta tudi računsko »zakasneli« – z drugimi besedami, počasni.

To je prva odprtokodna aplikacija, ki te cilje doseže s preprostim sistemom nagrajevanja brez uporabe referenčnih podatkov iz resničnega sveta, pišejo avtorji v študiji.

Da bi jim to uspelo, so algoritem najprej sintetizirali in izpopolnili s pomočjo računalniškega modela, nato pa ga prenesli na dva robotska psa iz resničnega sveta. Nato sta se robota v procesu, imenovanem okrepljeno učenje, poskušala premikati naprej na način, ki se jima je zdel primeren, in bila nagrajena glede na to, kako dobro jima je šlo. Tako se algoritem sčasoma nauči najboljšega načina pristopa k novemu izzivu.

V praksi večina obstoječih sistemov nagrajevanja z okrepljenim učenjem vključuje preveč spremenljivk, da bi bili učinkoviti, kar upočasnjuje računalniško zmogljivost. Prav zaradi tega je poenostavljen postopek nagrajevanja za robopsa parkour izjemen, čeprav je tudi presenetljivo enostaven.

»Pravzaprav je precej preprost,« je dejala dr. Finn in sklenila, da temelji predvsem na tem, kako daleč naprej se robot premika in koliko truda je pri tem vložil. »Sčasoma se robot nauči kompleksnejših motoričnih spretnosti, ki mu omogočijo, da gre naprej.

Stopnja 1: Predhodno spodbujevalno učenje z mehkimi dinamičnimi omejitvami. Raziskovalci so v fazi predhodnega treninga spodbujevalnega učenja robotom omogočili, da se prebijajo skozi ovire z uporabo samodejnega učnega načrta, ki uveljavlja mehke dinamične omejitve. To spodbuja robote, da se postopoma naučijo premagovati te ovire in hkrati zmanjšati število prodiranj. Foto: zajem zaslona Univerza Stanford
Stopnja 2: Natančno prilagajanje spodbujevalnega učenja z omejitvami trde dinamike. V fazi natančnega nastavljanja spodbujevalnega učenja so raziskovalci uveljavili vse omejitve dinamike in natačno prilagodili vedenje, ki so se ga naučili v fazi predhodnega učenja, z realistično dinamiko. Foto: zajem zaslona Univerza Stanford
Stopnja 3: Učenje politike parkourja na podlagi vizije z destilacijo. Ko robot usvoji posamezno spretnost parkourja, jih s pomočjo DAggerja destiliramo v enotno politiko parkourja na podlagi vida. To je mogoče namestiti na robota z nogami z uporabo le zaznavne in računske moči vgrajenega robota. DAgger (angl. Dataset Aggregation) iterativno trenira politiko z uporabo nadzorovanega učenja na podatkovni zbirki parov opazovanje–ukrep iz strokovnih predstavitev (kot je kloniranje obnašanja), izvaja politiko za zbiranje opazovanj, poizveduje pri strokovnjaku za dobra dejanja na teh opazovanjih in doda novo označena opazovanja v podatkovno zbirko. DAgger izboljša vedenjsko kloniranje z učenjem na podatkovni množici, ki je bolj podobna opazovanjem, s katerimi se bo usposobljena politika verjetno srečala, vendar zahteva spletno poizvedovanje pri strokovnjaku. Foto: zajem zaslona Univerza Stanford

Testiranje v resničnem svetu

Raziskovalci so zatem izvedli obsežne poskuse z robotskimi psi iz resničnega sveta, da bi prikazali svoj novi pristop k agilnosti v posebej zahtevnih okoljih, pri čemer so uporabili le računalnike, vizualne senzorje in sisteme napajanja, ki so bili na voljo pri teh robotskih psih.

Novi in izboljšani robotski psi so sposobni plezati po ovirah, ki so bile več kot dvakrat višje od njihove višine, preskočiti vrzeli, ki so bile skoraj trikrat daljše od njihove dolžine, se splaziti pod ovirami, ki so dosegale tri četrtine njihove višine, in se nagniti, da bi se stisnili skozi režo, tanjšo od njihove širine.

Ekipa upa, da bo v prihodnje izkoristila napredek na področju 3D-vida in grafike ter dodala podatke iz resničnega sveta, da bi s simuliranimi okolji dosegla novo raven avtonomije svojega algoritma v resničnem svetu.

This article is from: