20 apr 2023

Taalmateriaal van de maand

In deze nieuwe rubriek belicht de Taalunie vanaf nu iedere maand een digitaal taalmateriaal: een website, een verzameling teksten, een stuk software of lesmateriaal. Deze maand is het Corpus Hedendaags Nederlands aan de beurt.

1. Wat is een corpus?

Simpel gezegd is een corpus een verzameling digitaal doorzoekbare teksten. Bij een goed corpus is er ook nagedacht over welke teksten allemaal op één plek doorzoekbaar zijn. Je wilt dat een corpus op een of andere manier een afspiegeling is van een bepaald type taal. Zo’n type kan van alles zijn, van iets heel algemeens (de taal van Nederlanders) tot iets heel specifieks (de taal van recepten). Als de makers goed hebben nagedacht over welke teksten ze samenbrengen, kun je uitspraken doen over dat taaltype. Het VU-DNC-corpus bestaat bijvoorbeeld uit twee sets krantenteksten uit 1950 en 2002 uit allerlei katernen. Door die te vergelijken kun je kijken hoe krantentaal zich in de tweede helft van de twintigste eeuw heeft ontwikkeld.

2. Wat is het Corpus Hedendaags Nederlands?

Het Corpus Hedendaags Nederlands (CHN) is een van de grootste Nederlandstalige corpora: het bevat inmiddels meer dan een miljard woorden van na 1990. Meer dan 97% van die woorden is afkomstig uit kranten. Daarnaast bevat het teksten van blogs, boeken, chatgesprekken, websites en een klein aantal andere geschreven bronnen. Aan alle woorden is informatie toegevoegd over de herkomst van het woord, onder andere wat betreft medium, auteur en publicatiejaar. Er is bovendien veel grammaticale informatie toegevoegd aan de woorden. Zo kun je zoeken op wat als vraagwoord (‘Wat maak je me nou?’) en als betrekkelijk voornaamwoord (‘Het enige wat ik zag’). Of je kunt zoeken op werk als zelfstandig naamwoord (‘Ik ga naar mijn werk’) of als werkwoordsvorm (‘Ik werk bij de Taalunie’).

3. Wat kun je ermee?

Het doel van het CHN is om onderzoekers een beeld te geven van de staat van de Nederlandse taal. Het is een zogenaamd ‘monitorcorpus’, waarmee ontwikkelingen in de taal kunnen worden bijgehouden. Je kunt er allerlei onderzoeksvragen aan stellen. Welke nieuwe woorden worden er gebruikt, en door wie? Komen er bepaalde nieuwe grammaticale constructies voor? Ook voor meer algemene vragen is het geschikt. Je kunt bijvoorbeeld bestuderen welke woorden vaak in combinatie met elkaar voorkomen. Dat kan heel nuttige informatie opleveren voor mensen die Nederlands willen leren.

4. Hoe vaak wordt ‘hun hebben’ gebruikt?

Een van de voorbeelden van variatie die je kunt onderzoeken in het CHN is het gebruik van hun als onderwerp. Veel sprekers van het Nederlands keuren dat gebruik af. Maar komt dit gebruik wel zo vaak voor? Als je deze twee woorden samen opzoekt in het CHN vind je 283 hits. Ter vergelijking: ‘zij hebben’ komt meer dan 27.000 keer voor. De ‘juiste’ vorm is dus overweldigend in de meerderheid. Bovendien vind je bij ‘hun hebben’ nog een aantal zogenaamde foute resultaten. ‘Ze pakten hun hebben en houden’ bijvoorbeeld. Precies daar kan al die extra grammaticale informatie dus mooi van pas komen, want zo filter je gevallen die je niet zoekt eruit. ‘Hun hebben’ komt dus nog minder voor. In kranten tenminste! Voor gesproken taal moeten we een ander corpus bevragen.

Meer weten?

Het Corpus Hedendaags Nederlands wordt beheerd door het Instituut voor de Nederlandse Taal, en is hier te vinden. Om in te loggen is een CLARIN-account nodig. Heeft u of uw organisatie dat niet? Vraag dan hier een gastaccount aan. Voor meer informatie over het CHN is hier een blogpost uit 2021.


Digitale taalinfrastructuur

Het Nederlands beschikt over vele digitale taalbronnen. Dat zijn corpora van gesproken en geschreven taal, digitale woordenlijsten en woordenboeken, lexica, frequentielijsten, databases en terminologieverzamelingen. De Taalunie draagt bij aan de totstandkoming van veel digitale taalbronnen voor het Nederlands. Bijvoorbeeld door financiële ondersteuning te bieden of door samen te werken met het Instituut voor de Nederlandse Taal (INT), andere partners, onderzoekers, professionals en bedrijven. Daarbij wordt bekeken hoe de beschikbare infrastructuur ingezet kan worden in relevante domeinen zoals onderwijs en zorg, en of er uitbreidingen noodzakelijk zijn. De Taalunie stimuleert onderzoekers, bedrijven en organisaties om de taalbronnen ook daadwerkelijk te gebruiken in allerlei toepassingen voor het Nederlands.