och studenter från hela världen till en årlig tävling vill företaget driva på utvecklingen. Uppgiften är att bygga ett AI-system som kan föra ett naturligt samtal med en människa i 20 minuter. Alla som har tillgång till Amazons röstassistent Alexa kan hjälpa till att kora vinnaren. Genom kommandot Let’s chat kopplas användaren till en slumpmässigt vald konversationsrobot och får sedan sätta betyg på hur bra roboten klarade samtalet.
På vita duken är vi vana vid robotar som pratar. C3PO i Star Wars talar universums alla språk.
Tidigare byggde taligenkänning på att talet bröts ned till enstaka ljud – fonem – som sedan pusslades ihop igen till ord med hjälp av statistiska metoder och fonemlexikon. Det krävde både mycket tid och manuellt arbete. Med djupinlärning behövs inte dessa mellansteg. I stället lär sig datorn att gå direkt från tal till text. Det kräver dock stora mängder träningsdata. För att lära sig att boka ett restaurangbesök, som i exemplet med Googles röstassistent, matas AI-systemet först med miljontals inspelade restaurangsamtal. Till slut har systemet analyserat proceduren att boka bord i sådan detalj att det klarar av att göra en egen bordsbeställning under nya förhållanden. På samma sätt måste Furhat lära sig att intervjua jobbkandidater. Första steget är att träna på ett hundratal frivilliga personer. Så småningom kommer roboten att kunna göra riktiga intervjuer på egen hand – och ju fler den intervjuar, desto bättre blir den. Nästa steg blir robotar som kan utföra mer generella uppgifter. Redan i dag pågår till exempel försök att lära robotar att konversera som en människa. – Att föra ett samtal där svaren inte är givna är en svårare nöt att knäcka. Här hjälper det inte att ösa ner data i en svart låda och träna. Roboten måste då också ha ett visst mått av sunt förnuft och kunna läsa av tankar, viljor och intentioner, säger Gabriel Skantze. Ett av de företag som försöker få robotar att föra fria samtal är det amerikanska e-handelsföretaget Amazon. Genom att bjuda in forskare
60
Den som testar kommandot Let’s chat märker att det faktiskt går att föra ett slags samtal, men att dagens AI inte räcker till för en helt fri konversation. Roboten vill gärna styra samtalet mot böcker, filmer eller nyheter och ställer frågor som: ”Vilken är din älsklingsförfattare?” Svaren innehåller data om författaren i fråga, men mer djuplodande än så blir det inte – än så länge. Det krävs fortsatta framsteg inom flera områden, förklarar Nikko Ström, en av de ledande forskarna inom talteknik hos Amazon i Seattle i USA. Han förklarar att forskningen måste gå framåt när det gäller att få maskiner att både förstå och kunna svara med hjälp av naturligt tal. Datorerna måste också bli bättre på att tolka det människor säger genom att förstå sammanhanget och ha ett ”sunt förnuft”. Djupinlärning fungerar bra så länge målet är tydligt, men i en fri konversation finns inga på förhand korrekta svar. Roboten måste lära sig att leta efter svar på många olika ställen och kunna koppla ihop begrepp som ”Zlatan ” och ”fotboll”. Nikko Ström förklarar att djupinlärningsmodellerna därför kompletteras med andra metoder, där AI-systemet får hjälp av forskarna att tolka situationen på rätt sätt. Men varför ska man egentligen kunna snacka med sina prylar? Nikko Ström menar att rösten är det mest naturliga och bekväma sättet att samspela med tekniken. Men bekvämligheten har också en baksida, som har väckt kritik. Röststyrda robotar är alltid påslagna för att kunna reagera på kommandon och hör därför allt som sägs i runmet. Företagen bakom de olika tjänsterna vill använda denna extra information för att kunna skräddarsy annonser. Det är därför också viktigt att föra en diskussion om hur avlyssningen kan användas på andra sätt – och hur den personliga integriteten påverkas av att leva tillsammans med smyglyssnande apparater. Marie Alpman, Forskning & Framsteg (10/18)