Waarom verstaan computers en smartphones ons zo moeilijk?

vr, 02/11/2018 - 12:11

“Siri, waar is de Jules van Biesbroeckstraat? De kans dat Siri of een andere spraakherkenningsapp deze zin meteen 100% correct interpreteert, is niet groot. Vaak met veel hilariteit tot gevolg. Maar hoe komt het eigenlijk dat je smartphone je nooit evengoed lijkt te verstaan als je lief, buurman of beste vriendin?

Het antwoord op die vraag krijgen we van Yannick Jadoul en Marnix Van Soom van het Artificial Intelligence Lab aan de Vrije Universiteit Brussel. Zij leggen uit wat het zo moeilijk maakt voor een computer om menselijke spraak te begrijpen. “De menselijke spraak bevat veel meer, en soms net veel minder informatie dan we beseffen. In het Intelligence Lab aan de VUB onderzoeken wij hoe computers in de toekomst op een natuurlijkere en menselijkere manier kunnen leren communiceren. Aan de ene kant komen we zo meer te weten over hoe taal en spraak ontstaat, hoe het geleerd wordt door kinderen en hoe het menselijk brein hiermee omgaat.”

Hoe registreert een computer wat wij zeggen?

“Geluid bestaat onder meer uit golven in de lucht. Als een computer je probeert te verstaan, registreert hij de geluidsgolven. De vormen van deze golven geven in feite het verschil tussen verschillende klanken weer. Zelfs de geluidsgolven van eenzelfde klank, bijvoorbeeld de open ‘o’ in enerzijds ‘noordenwind’ en anderzijds ‘erover’ in dit geluidsfragment (1), zien er verschillend uit. Dat kan je ook goed zien op deze afbeeldingen.”

Extra informatie die het computers lastig maakt

Je hersenen moeten elke keer opnieuw zien te achterhalen welke klank jij precies gehoord hebt. “Elke keer als je een klank uitspreekt, ziet die er namelijk net iets anders uit. Er zit in spraak dan ook heel wat informatie waar je niet direct bij stilstaat. Je kan bijvoorbeeld horen of iemand ziek is, opgewekt of net teleurgesteld. Net zoals je het hoort wanneer iemand de vorige dag iets te hard meegezongen heeft op een concert en hees is. Je kan ook de nadruk leggen op een bepaald woord in een uitgesproken zin. Ten slotte kan je zelfs op basis van een paar woorden herkennen wie er tegen je sprak.”

Het is met andere woorden niet simpel om een computer aan te leren om uit al die extra informatie de zin "Wat voor weer wordt het morgen?" te onderscheiden. “Al zijn computers dankzij onderzoek in artificial intelligence, machine learning en spraakherkenning tegenwoordig best goed in het leren onderscheiden van interessante en niet-relevante stukken data.”

Verborgen informatie voor computers

Het probleem ligt niet alleen bij een teveel aan informatie. Soms missen computers net belangrijke informatie om zinnen te kunnen begrijpen. De eigenlijke betekenis van een gesproken zin hangt niet enkel af van het geluid dat je hoort, maar wordt ook gedeeltelijk afgeleid uit de context, verwachtingen en algemene kennis. 

“Zo kan je smartphone bijvoorbeeld geen lipbewegingen of gelaatsuitdrukkingen zien. Dit is nochtans noodzakelijk wanneer zinnen niet duidelijk uitgesproken worden of wanneer er veel omgevingslawaai is. Als je een gesprek voert in een luidruchtige omgeving, geeft het gezicht van de andere persoon je kostbare informatie die je (onbewust) toelaat om de stukken die je eigenlijk niet verstaan hebt toch juist te interpreteren. Meer nog, uit onderzoek is gebleken dat lipbewegingen je hersenen kunnen doen geloven dat er een andere klank wordt uitgesproken. Dit wordt het McGurk-effect genoemd, wat in deze video geïllustreerd wordt. (2)"

Er zijn nog zaken die je niet zal terugvinden in het spraaksignaal zelf. Je hersenen proberen de woorden die je hoort te matchen met alle andere informatie die jij hebt over de mogelijke betekenis. “Als iemand de zin ‘De onderzoeker gaf haar collega een hand’ in een bepaald dialect uitspreekt, of slecht articuleert, dan zal jij de uitspraak "hend" kunnen detecteren als onbestaand en "hond" als erg onwaarschijnlijk voor deze context. Het indrukwekkende is dat je dat dikwijls doet, zonder dat je je ervan bewust bent.”

Een mooi voorbeeld hiervan is een audiofragment dat in het voorjaar van 2018 de ronde deed op internet en sociale media. “Sommige mensen horen met zekerheid "Yanny", terwijl de andere helft net zo zeker is "Laurel" te horen. Hoe je dit geluid zal interpreteren, hangt op de één of andere manier af van je impliciete verwachtingen, terwijl geen van beide opties echt helemaal duidelijk is op basis van de geluidsgolven alleen.”

Wil je graag nog meer achtergrondinformatie? Klik dan hier voor het volledige artikel.

Wil je nog meer te weten komen over de bevindingen van het Artificial Intelligence lab? Kom dan op zondag 25 november naar Muntpunt in Brussel op de Dag van de Wetenschap! Klik hier voor meer info.

Bronvermelding:

1. Audiofragment afkomstig uit het Aesop Language Bank project (http://aesoplanguagebank.com/nl.html), ingesproken door Goedele Vermaelen in 2008, met dank aan Kenneth von Zeipel voor het gebruik van dit fragment.
2. Videofragment afkomstig van het YouTube-kanaal van BBC, oorspronkelijk afkomstig uit een BBC2 documentaire "Horizon: Is Seeing Believing?".