Op vrijdag 22 september vond de jaarlijkse CLiN-conferentie plaats, oftewel Computational Linguistics in the Netherlands. Taaltechnologen en computerlinguïsten uit Vlaanderen, Nederland en daarbuiten zakten af naar de Universiteit Antwerpen voor een goedgevuld programma. De Taalunie was niet alleen een van de sponsors van dit evenement, maar was ook inhoudelijk betrokken bij verschillende lezingen en posterpresentaties.
De CLiN-organisatoren wisten een grote internationale naam te strikken als plenair spreker: Oekraïens professor en voorzitter van de Association For Computational Linguistics Iryna Gurevych (Universiteit Darmstadt, Duitsland). Zij gaf een inspirerende gastlezing over het gebruik van computermethodes voor betere fact-checking. Ze legde glashelder uit waarom deze taak voor zowel mensen als computers een tandenbijter is. Ook maakte ze duidelijk dat de huidige computermethodes vaak niet goed afgestemd zijn op hoe fact-checking er in de echte wereld aan toegaat. Daarom haalde ze enkele veelbelovende onderzoekspistes aan voor meer realistische oplossingen, en benadrukte daarbij het belang van kwalitatief hoogstaande datasets.
Daarnaast was er in de maanden voorafgaand aan de conferentie een shared task georganiseerd rond een brandend actueel en zowel wetenschappelijk als maatschappelijk erg relevant thema: de automatische herkenning van AI-gegenereerde tekst. Onderzoeksteams van verschillende universiteiten en bedrijven namen deel en ontwikkelden systemen die voorspellen of een tekst door een mens dan wel een computer is geschreven. Om de taak zo realistisch mogelijk te maken bestonden de testdata uit verschillende tekstgenres: nieuwsberichten, poëzie, sociale media, reviews en columns. Voor sommige genres werd met zogenaamde adversarial prompting gewerkt, om de AI-gegenereerde tekst zo menselijk mogelijk te doen lijken. Van de zestien geïnteresseerde teams slaagden er uiteindelijk slechts vier in om zowel voor het Nederlands als voor het Engels een oplossing in te sturen. Hun methodes varieerden van klassieke leermethodes tot BERT-encoders, en maakten gebruik van genredetectie, stilometrische kenmerken geïnspireerd op auteursherkenning, syntactische informatie en meer. Op de conferentie werden de verschillende aanpakken besproken en maakte de organisatie bekend welk ingezonden systeem het best presteerde: Hans Van Halteren van de Radboud Universiteit Nijmegen (85% accuraatheid voor Engels) en Yuri Kashnitsky van Elsevier (75% accuraatheid voor Nederlands) kwamen als winnaars uit de bus. Zij ontvingen elk een certificaat en een geldprijs van 500 euro.
De overige sessies waren gevuld met lezingen en posterpresentaties rond verschillende domeinen en toepassingen van de computertaalkunde. Bij verschillende hiervan was de Taalunie betrokken. Zo presenteerden collega’s onderzoek rond de SignON-technologie voor slechthorenden, rond de aanleg van lexicale databases voor gebarentaal, en rond technieken om automatisch terminologiedatabases op te stellen.
De dag werd feestelijk afgesloten met een netwerkreceptie voor de maar liefst 231 (!) deelnemers. Dat aantal maakt van deze 33ste editie van de jaarlijkse CLiN-conferentie een echt succesverhaal. Een grote groep taal- en computerwetenschappers, waaronder veel jonge onderzoekers aan het begin van hun carrière, vonden elkaar op deze dag. Zij zijn het heden én de toekomst van de taaltechnologie!