Kunstmatige intelligentie kan het accent van iemand in een telefoongesprek herkennen en de stem van de andere persoon tijdens het praten zo vervormen dat deze er precies op lijkt. Deze techniek zou een hoop communicatie duidelijker en begrijpelijker kunnen maken, zoals klantenservice- en helpdeskgesprekken.
De Amerikaanse startup Sanas ontwikkelde hier software voor die draait op een smartphone of laptop in plaats van op een centrale server, zoals bij Amanzons’ virtuele assistent Alexa het geval is. Dit verbetert de snelheid en veiligheid. Het bedrijf beweert dat de software het stemgeluid tot het juiste accent vervormt met een vertraging van slechts 0,2 seconde.
De software tapt het geluid af tussen de microfoon en communicatiesoftware zoals Zoom, en vervormt het geluid. Het bootst accenten na met een neuraal netwerk dat getraind is op geluidsfragementen van gesprekken op straat, opnames van telefoongesprekken van andere callcenters en bestanden die op internet gevonden zijn.
Geen tekst maar klanken
Andres Perez Soderi, mede-oprichter van Sanas, zegt dat sommige onderdelen van het programma een black box zijn en dat de manier waarop het de stemmen nabootst onbekend is. Hij zegt dat het team tijdens de ontwikkelfase al snel doorkreeg dat het programma niet eerst het geluid naar tekst kon omzetten om die vervolgens met een nieuwe stem met een ander accent voor te lezen. Dit kwam vooral doordat fouten in de vertaling zouden sluipen, en er vertraging zou optreden, wat een gesprek onmogelijk maakt.
Het team koos uiteindelijk voor een model dat gebaseerd is op losse klanken en daardoor het geluid al kan vervormen nog voor een woord volledig is uitgesproken. Soderi zegt dat Sanas met verschillende bedrijven in gesprek is om de techniek de komende maanden uit te rollen.