01 jul 2015

Boeven vangen met woorden

Ook criminelen kunnen niet om taal heen als ze met elkaar willen communiceren. Maar taal kan wel leiden tot hun ondergang. Het Team High Tech Crime van de Nationale Politie in Nederland zet zijn eerste stappen met TST: taal- en spraaktechnologie.

Voor de onoplettende lezer leek er niets aan de hand. Oké, het kersverse echtpaar Jamie en Debbie Starbuck was wel héél plotseling op een drie jaar durende wereldreis gegaan, maar mensen laten wel vaker de boel de boel. Vanaf de andere kant van de wereld hielden de Britse tortelduifjes thuisblijvers per mail op de hoogte van hun avonturen. Maar met die mailtjes was iets mis, vond Debbie's familie. Toen ook nog bleek dat Debbie's paspoort was verlopen en dat er geld van haar rekening op die van Jamie was overgeschreven, begonnen de alarmbellen te rinkelen.

Taalkundigen van de Aston Universiteit die de mails analyseerden, kwamen tot een bijzondere conclusie. Debbie's schrijfstijl was enkele weken voor vertrek opvallend veranderd. Wat bleek? Niet Debbie, maar Jamie stuurde de mails. Samen met andere bewijsstukken leidde het taalonderzoek tot de conclusie dat Starbuck zijn bruid daags na de trouwerij om het leven had gebracht en een tour du monde deed van haar spaargeld.

In de kinderschoenen

Het analyseren van taalgebruik om een misdaad op te lossen is niet nieuw. Al in 1996 werd de Amerikaanse seriemoordenaar 'Unabomber' Ted Kaczynski gesnapt, omdat zijn schrijfstijl werd herkend. Maar dankzij technologische ontwikkelingen op het gebied van taal- en spraakanalyse worden tegenwoordig steeds vaker computers ingezet om een zaak tot een goed einde te brengen. Door schrijfstijlen te analyseren, zoals in de Starbuck-zaak, maar ook automatische vertaling van teksten, verificatie of identificatie van sprekers en zoeken in talloze uren aan telefoontaps zijn mogelijk.

En dat brengt voordelen met zich mee, vertelt Michel Boekestein. Sinds december is hij bij het Team High Tech Crime van de Nationale Politie als ontwikkelaar verantwoordelijk voor de implementatie van taal- en spraaktechnologie (TST). Boekestein opereert op het snijvlak van de taalwetenschap en de ICT. 'Taalanalyse is zonder computers ook mogelijk, maar het gebruik van menselijke krachten is vaak een knelpunt. Als je een analyse van 100.000 berichten op sociale media wilt maken, dan kost dat ontzettend veel tijd. Software kan dat veel sneller en daardoor kun je je kostbare mensen op andere plekken inzetten.'


Zoeken op woordklank 'pillen'


TST staat in Nederland momenteel nog in de kinderschoenen, maar als het aan Boekestein ligt, gaat dat snel veranderen. Met zijn eerste project bij het Team High Tech Crime richt hij zich op het implementeren van slimme vertaalsoftware. Die kan worden gebruikt om digitale communicatie in een andere taal snel om te zetten in het Nederlands. Bijvoorbeeld wanneer Poolse drugshandelaren via internet communiceren over hun volgende levering. Google Translate dus eigenlijk, maar dan 'in huis' en met het belangrijke verschil dat de software te trainen is voor specifieke doeleinden. 'Als software bedoeld is om artikelen uit kranten te vertalen, dan kan hij niet overweg met online slang over hacken. Door algoritmes aan te passen, kunnen onze systemen dat wel.'

Spraakherkenning

Wie wel eens gebruik heeft gemaakt van Google Translate weet dat er bij vertalingen zo nu dan iets mis gaat. Ook het systeem dat Boekestein bij de politie uitrolt is niet perfect. Erg is dat niet volgens de ontwikkelaar, die voor zijn overstap naar het Team High Tech Crime al tien jaar binnen het TST-veld werkte. 'Als een tekst voor 60 tot 70 procent vertaald is, dan kun je er al mee werken. De software vist de belangrijke zaken uit de grote brij: het zijn de krenten in de pap. En daar gaan onze rechercheurs vervolgens mee verder.'

Tijdsbesparing is het credo. Niet alleen voor het vertaalsysteem waar Boekestein momenteel volop mee aan het testen is, maar ook bij andere experimenten. Naast de analyse van geschreven tekst kan TST namelijk ook bij gesproken tekst een uitkomst bieden. 'We zetten op bescheiden schaal spraakherkenning in. Met die software kunnen we woordklanken ingeven, bijvoorbeeld het woord 'pillen', waarna de software in geluidsbestanden op zoek gaat naar dat woord.'

Vooral bij telefoontaps kan dat goed van pas komen, aldus Boekestein. 'Loopt zo'n tap een paar dagen, dan levert dat al snel uren aan materiaal op. En grote delen van zo'n gesprek zijn niet relevant. Ook als verdachten over het weer praten, wordt dat opgenomen. En zonder software moet dat allemaal uitgeluisterd worden.'

Geen kip met gouden eieren

In het verlengde van die spraakherkenningssoftware liggen nieuwere technieken waarmee het mogelijk is sprekers te identificeren of te verifiëren. Zulke softwarepakketten gebruiken grote databases om de stem aan de telefoon aan een naam te koppelen (identificatie) of om een schatting te geven hoe waarschijnlijk het is dat een gesproken tekst bij een verdachte hoort (verificatie). Dergelijke technieken moeten het voor rechercheurs gemakkelijker maken om genoeg bewijs te verzamelen om criminelen achter slot en grendel te zetten.

Bij de Landelijke Eenheid van de Nationale Politie zijn die nieuwe technieken voorlopig nog toekomstmuziek, legt Boekestein uit. Hij haast zich om te zeggen dat TST nu nog niet de kip met de gouden eieren is. De verwachtingen temperen, noemt hij dat. 'Het is niet zo dat wanneer een collega met een stapel documenten aan komt zetten, we binnen een dag een zaak opgelost hebben. Dat gebeurt alleen maar in CSI op tv. Ook in de toekomst gaat dat geen realiteit worden.'

Ondanks de pas op de plaats die Boekestein maakt, is hij wel van mening dat taal- en spraaktechnologie potentie heeft. 'Criminelen veroordelen alleen op de resultaten van een TST-onderzoek; dat gaat niet gebeuren. Maar de bewijzen die het oplevert kunnen wel bijdragen aan een veroordeling. Het is een plusjesverhaal: bewijs je dat een verdachte én op de juiste plek was én een motief heeft én dat zijn stem herkend is, dan wordt de kans op een veroordeling een stuk groter. Met TST gaat het analyseren van taal een stuk sneller dan wanneer we puur en alleen mensen zouden inschakelen. Zo maakt taal- en spraaktechnologie ons werk een stuk makkelijker.'