Mänsklig kommunikation fascinerar Gabriel Skantze.
Ålder: 42 år.
Ort: Stockholm.
Familj: Fru och två döttrar.
Yrke: Docent i talteknologi vid Kungliga tekniska högskolan, KTH. Medgrundare av företaget Furhat Robotics, som utvecklar och säljer talande robothuvuden, furhatrobotics.com.
Intressen: Vetenskap i allmänhet, film och musik.
Hur hör en robot?
– Ljudet fångas in av en eller flera mikrofoner. Flera mikrofoner kan vara bra om roboten ska kunna uppfatta varifrån ljudet kommer och om den ska kunna filtrera ut ljud från en viss riktning. Det fungerar på liknande sätt som hos människor.
– En stor utmaning är att höra skillnaden på ljud från den som pratar och ljud från omgivningen, vilket gör att roboten ibland råkar svara även om ingen sagt något. En annan är att förstå om människorna pratar med varandra eller med roboten. För detta kan man använda robotens kamera för att också läsa av blickriktning och läpprörelser, men det behövs mer forskning om det.
– Normalt sett analyserar man bara vilka ord som sägs, och missar då till exempel tonfallet, som kan vara mycket viktigt. Även här behövs mer forskning för att bättre förstå hur roboten ska kunna använda sig av detta.
Du har varit med och utvecklat den sociala roboten Furhat. Vad kan den göra?
– Furhat är en social robot som kan prata med flera personer samtidigt och har ett uttrycksfullt ansikte. Vi utvecklar Furhat till att vara en plattform, så att man kan utveckla olika robotapplikationer till den, på samma sätt som en iPhone kan köra en massa olika appar.
– Furhat kan till exempel vara en social samtalspartner, stå i en hotellreception och ta emot kunder, eller läsa sagor för barn. Folk som träffar Furhat kommer ständigt på nya spännande idéer och användningsområden som vi inte hade tänkt på.
Furhat använder olika strategier för att låtsas förstå, för att det ska kännas som ett samtal. Kan du ge exempel på sådana strategier?
– Det beror förstås vad uppgiften är. Om Furhat ska sälja tågbiljetter så är det förstås viktigt att det inte blir några missförstånd, och han måste kanske klargöra exakt vad som sagts. Men om man spelar ett spel tillsammans eller har ett mer socialt samtal så kanske det inte är så viktigt att förstå vartenda ord som sagts. Då kan Furhat ”låtsas” att han förstår och prata vidare, kanske löser det sig senare under samtalet. Sådana strategier använder ju vi människor också. Om man tror att någon frågade ” vad gjorde du i går?” men man är lite osäker, så är det säkrare att svara ”i går var jag och spelade bowling” än bara ”spelade bowling”, eftersom det förmodligen kommer att fungera bättre om den andre skulle ha sagt något annat, men även fungerar som svar på frågan. I min forskning har jag sett att människor väldigt sällan säger ”jag förstod inte vad du sa, kan du upprepa?”
Kan man be Furhat prata högre och tydligare eller säga om med andra ord?
– Man kan enkelt spela upp ljudet från Furhat med högre volym. Vi försöker generellt undvika att Furhat upprepar sig med exakt samma ord, eftersom det inte brukar fungera bra.
Kan sociala robotar vara till hjälp för personer med nedsatt hörsel?
– Jag vet inte om det finns något särskilt tillämpningsområde, men en fördel med Furhat jämfört med andra robotar är att läpprörelserna är väldigt tydliga och precisa. Vi har visat i experiment att läpprörelserna hjälper användaren att förstå vad roboten säger.
Vilka sociala hinder är svårast för en robot att ta sig över?
– Det är en mycket stor utmaning att få en robot att använda sig av alla de sociala koder som vi människor använder. Det hjälper om man vet vad samtalet ska handla om och man kan använda sig av standardiserade sociala koder. Att förstå ironi och andra indirekta sätt att använda språket på är en särskilt stor utmaning som vi inte vet hur man ska lösa idag.
Hur kom det sig att du ville forska om mänsklig kommunikation?
– Det är så intressant eftersom det involverar så många olika signaler på så många olika plan, allt ifrån fonetik, syntax, semantik till socialt beteende. Till skillnad från skriven text måste man i ett samtal tolka och producera signaler i realtid och koordinera sitt beteende med sin samtalspartner. Det är en spännande utmaning att skapa detta beteende i en dator eller en robot.