Automatische spraakherkenners die de menselijke aanpak nabootsen, laten zich veel minder snel door achtergrondgeluiden van de wijs brengen.

Er zijn veel vernuftige toepassingen voor automatische spraakherkenning denkbaar, maar de huidige technologie is nog verre van optimaal – zeker in vergelijking met menselijke prestaties op het gebied van spraakverwerking. Zo verstaan mensen elkaar tijdens een druk feest of op een lawaaierig station vaak nog uitstekend, terwijl de huidige spraakherkenners bij het minste achtergrondgeluid al volstrekt onbruikbaar zijn. De apparatuur kampt met het ‘cocktailpartyprobleem’: in tegenstelling tot de mens beschikken ze niet over het vermogen relevante informatie te selecteren tegen een achtergrond van storende ruis.

Promoverend wetenschapper Tjeerd Andringa ontwikkelde een nieuwe signaalanalysemethode die de menselijke aanpak imiteert. De mens selecteert, combineert en interpreteert spraakinformatie in een geluidssignaal op basis van zekere regelmatigheden. Bij binnenkomst van een geluidssignaal gaat het basilaire membraan in het oor meetrillen. Een signaal bestaat uit achtergrondruis en een aantal sterkere componenten die van bepaalde bronnen, bijvoorbeeld een spreker, komen. Elk van die componenten domineert de trilling van een specifiek stukje van het basilaire membraan. Het oor scheidt zo de signalen van verschillende bronnen. Het signaal dat het membraan uiteindelijk naar de hersenen stuurt, lijkt op een berglandschap van series toppen die bij elkaar horen, omdat ze informatie van dezelfde bron bevatten.

Andringa’s signaalanalysemethode bootst het proces van bronscheiding in het menselijk oor na: de methode zoekt naar reeksen van samenhangende toppen, waarna hij deze uit het signaal licht. Bij de speurtocht gebruikt de methode een aspect van het menselijke spraakverwerkingssysteem dat tot nog toe onderbelicht bleef: het principe van behoud van continuïteit. Volgens dit principe mogen signaalcomponenten alleen met elkaar gecombineerd worden, wanneer ze een samenhang vertonen met karakteristieke eigenschappen van dezelfde geluidsbron, bijvoorbeeld een spreker.

De nieuwe analysetechniek kan in een willekeurige omgeving de signalen die de relevante informatie van een specifieke bron bevatten selecteren. Bovendien kan hij signaalcomponenten van een zelfde bron, zoals een spreker, combineren tot lettergrepen. Andringa verwacht dat hij op deze wijze in de nabije toekomst het cocktailparty-probleem kan oplossen. Dit zou een grote stap vooruit betekenen, wellicht ook voor dragers van gehoorapparaten, die nu veel last hebben van voornoemd probleem. De tijd die de signaalverwerking vergt moet dan echter wel eerst aanmerkelijk korter worden. Nu is de vertraging nog te groot.

Mirjam Leunissen

Informatie: www.HuQ.nl