6 minute read

Veštačka inteligencija uzgojila spasilačkog robotskog psa

Istraživači veštačke inteligencije sa američkog Univerziteta Stanford i njihove kineske kolege sa šangajskog instituta Qi Zhi pojednostavljenom tehnikom mašinskog učenja stvorili su robotskog psa. Ovaj pas u stvarnom svetu ume da skače, da se vere, puzi i da se provlači pored fizičkih prepreka kao nikada do sada. Time su robotima približili neverovatno atletsku inteligenciju ljudi i životinja.

Jednog dana će robotski spasilački psi biti prvi koji će reagovati i priteći u pomoć ugroženima u slučaju potresa, poplava i nuklearnih nesreća. Koristeći se računarskim vidom, četvoronošci na baterijski pogon bi procenjivali prepreke i savladavali ih pomoću psećih spretnosti.

Da bi postigli ovaj plemeniti cilj, istraživači veštačke inteligencije iz Stanforda i instituta Shanghai Qi Zhi razvili su nov algoritam koji se zasniva na vidu i robotskim psima pomaže da se popnu na

visoke predmete, preskaču rupe, da se zavuku pod prag i provuku kroz pukotine – i da nakon toga pređu na sledeći izazov. Algoritam predstavlja „mozak” robota.

Robot sličan psu, koji se penje preko nepoznate prepreke pomoću jednostavnog algoritma koji podstiče napredovanje uz minimalni napor. Istraživači su predstavili metod kojim jeftini četvoronožni roboti izvode parkour veštine. Parkour je veliki izazov za kretanje nogama koji od robota zahteva brzo savladavanje različitih prepreka, uključujući penjanje, skakanje, puzanje, naginjanje i trčanje u zahtevnim okruženjima. Naglasak istraživačkih saznanja je na dvostepenom metodu podsticajnog učenja, koje koristi prethodno osposobljavanje mekim dinamičkim ograničenjima i fino podešavanje čvrstim dinamičkim ograničenjima. Istraživači pokazuju kako njihov metod može da omogući ispoljavanje parkour veština na stvarnom robotu primenom vizuelnog opažanja koje je ugrađeno u robota. Istraživači su omogućili parkour tako da robot više puta pokušava da savlada prepreku, ako mu to ne uspe iz prve. Robot nauči da pritiska prepreku i da tako sebi napravi dovoljno prostora za naredne pokušaje. U tu svrhu kreirali su tri stepena učenja.

„Autonomija i opsežne kompleksne spretnosti koje je usvojio naš robot na četiri točka izuzetno su impresivni”, kaže dr Chelsea Finn, docentkinja računarstva na Univerzitetu Stanford. „Povrh svega, napravili smo ga od jeftinih, već dostupnih robota – zapravo dva različita prethodno postojeća robota”, dodaje koautorka naučnog članka. Dr Finn predstavila je članak u Atlanti, na međunarodnoj konferenciji o učenju robota CoRL, čija je glavna tema bila presek robotike i mašinskog učenja.

Autori navode da je ključni napredak u tome što je njihov robotski pas autonoman – to znači da ume da proceni fizičke izazove i da ih zamisli, a zatim da primeni opsežne spretnosti koje se zasnivaju samo na preprekama koje vidi pred sobom.

„Ovde objedinjujemo detekciju i nadzor, pri čemu koristimo slike iz dubinske kamere montirane na robotu, kao i mašinsko učenje za obradu svih ovih ulaznih podataka i pomeranje nogu za kretanje preko prepreka, ispod i oko njih”, objašnjava Zipeng Fu, doktorand u stanfordskoj laboratoriji IRIS (Intelligence through Robotic Interaction at Scale) i prvi autor studije zajedno sa Ziwenom Zhuangom iz instituta Qi Zhi.

Stepen 1: Prethodno podsticajno učenje uz meka dinamička ograničenja: Istraživači su u fazi prethodnog treninga podsticajnog učenja omogućili robotima da se provlače kroz prepreke pomoću automatskog plana učenja koji uvodi meka dinamička ograničenja. To podstiče robote da postepeno nauče da prevazilaze ove prepreke i da istovremeno smanje broj prodiranja.
Fotografija: snimak ekrana
Stepen 2: Precizno prilagođavanje podsticajnog učenja ograničenjima čvrste dinamike. Istraživači su u fazi preciznog podešavanja učenja uveli sva ograničenja dinamike i precizno prilagodili ponašanje naučeno u fazi prethodnog učenja, uz realističku dinamiku.
Fotografija: snimak ekrana

Pojednostavljenje za optimizaciju

Njihov robotski pas nije prvi koji bi pokazao takvu okretnost u atletskoj disciplini parkour, ali je prvi koji objedinjuje samodovoljnost sa širokim spektrom veština.

„Naši roboti imaju vid i autonomiju – atletsku inteligenciju, koja im omogućava da procene izazov te da samostalno izaberu i primenjuju parkour veštine u odnosu na trenutne zahteve”, kaže Fu.

Postojeće metode učenja često se zasnivaju na komplikovanim sistemima nagrađivanja koje treba precizno prilagoditi određenim fizičkim preprekama. Stoga ih je nemoguće prilagoditi novom ili nepoznatom okruženju. Drugi srodni pristupi uče se primenom podataka iz stvarnog sveta kako bi oponašali veštine agilnosti drugih životinja. Ovi robopsi nemaju širok spektar veština i nemaju primetne sposobnosti novih robopasa. Oba postojeća metoda su takođe računski „zakasnila” – drugim rečima, spori su.

„Ovo je prva aplikacija otvorenog koda, koja ove ciljeve postiže jednostavnim sistemom nagrađivanja bez primene referentnih podataka iz stvarnog sveta”, navode autori u studiji.

Kako bi im to uspelo, najpre su sintetizovali algoritam i usavršili ga pomoću računarskog modela, a zatim ga preneli na dva robotska psa iz stvarnog sveta. Zatim su dva robota u procesu pod nazivom pojačano učenje pokušavala da se pomeraju napred onako kako im se činilo prikladno i bili su nagrađeni u zavisnosti od toga koliko su bili uspešni. Tako algoritam vremenom uči najbolji način za pristup novom izazovu.

Većina postojećih sistema nagrađivanja pojačanim učenjem u praksi uključuje previše promenljivih da bi bili efikasni, što usporava računarske performanse. Upravo zbog toga je pojednostavljen postupak nagrađivanja za parkour robopsa izuzetan, iako je uz to iznenađujuće jednostavan.

„Zapravo je prilično jednostavan”, kaže dr Finn i zaključuje da polazi pre svega od toga koliko daleko se robot pomera napred i koliko truda je pritom uložio. „Robot vremenom nauči kompleksnije motoričke veštine koje mu omogućavaju da se pomera napred.”

Stepen 3: Učenje pravila parkoura na osnovu vizije sa destilacijom Kad robot usvoji pojedinačnu veštinu parkoura, pomoću DAggera ih destilišemo u jedinstvena pravila parkoura na osnovu vida. To je moguće instalirati na robota s nogama uz primenu samo percepcijske i računske moči ugrađenog robota. | DAgger (eng. Dataset Aggregation – agregacija skupa podataka) iterativno uvežbava pravila primenom kontrolisanog učenja na bazi podataka parova posmatranje–mera iz stručnih prezentacija (kao što je kloniranje ponašanja), primenjuje pravila za prikupljanje posmatranja, od stručnjaka dobija podatke u vezi sa dobrim radnjama tokom ovih posmatranja i dodaje novooznačena posmatranja u bazu podataka. DAgger unapređuje kloniranje ponašanja učenjem na mnoštvu podataka koje bolje odražava posmatranja koja će verovatno biti predmet naučenih pravila, iako to iziskuje savetovanje sa stručnjakom.
Fotografija: snimak ekrana

Testiranje u stvarnom svetu

Istraživači su zatim sproveli opsežne probe s robotskim psima iz stvarnog sveta kako bi prikazali svoj novi pristup agilnosti u naročito zahtevnim okruženjima, pri čemu su koristili samo računare, vizuelne senzore i sisteme napajanja, koji su bili dostupni kod ovih robotskih pasa.

Novi i poboljšani robotski psi umeju da se penju po preprekama koje su bile dva puta više od njih, da preskaču jazove koje su bile skoro tri puta duže u odnosu na njihovu dužinu, da se provlače ispod prepreka koje su dopirale na tri četvrtine njihove visine i da se nagnu kako bi se provukli kroz otvor koji je tanji u odnosu na njihovu širinu.

Ekipa se nada da će u budućnosti iskoristiti napredak u oblasti 3D vida i grafike te dodati podatke iz stvarnog sveta, kako bi sa simuliranim okruženjima dostigla novi nivo autonomije svog algoritma u stvarnom svetu.

This article is from: