Foutmelding

Deprecated function: The each() function is deprecated. This message will be suppressed on further calls in _menu_load_objects() (regel 579 van /var/www/vhosts/taaluniebericht.org/2014.archief.taaluniebericht.org/includes/menu.inc).

Taalunienieuws

Dit is een oude versie van Taalunie:Bericht en wordt niet meer bijgewerkt. Ga voor nieuwe artikelen naar taaluniebericht.org.

 
3 juni, 2015 - 15:42

De Nationale Wetenschapsagenda

De afgelopen maanden konden alle Nederlanders vragen indienen voor de Nationale Wetenschapsagenda. Eén van de doelen van deze volksraadpleging is om te kijken welke onderwerpen er leven binnen de maatschappij, en die vervolgens onder de aandacht te brengen van de wetenschap. De eindteller stond vrijdag 1 mei op ruim 11.650 vragen. Dat succes brengt ook een probleem met zich mee: hoe kunnen we al die vragen sorteren, om ze aan de juiste beoordelaars voor te kunnen leggen?

Sorteren

Het is ondoenlijk om alle vragen en verdere uitwerkingen daarvan handmatig te sorteren op vakgebied. Daarom moeten we kijken naar mogelijkheden om alle vragen automatisch te sorteren. Daar zijn tegenwoordig heel geavanceerde softwarepakketten voor, die goed werken op verzamelingen van duizenden documenten. Het enige probleem met deze toepassingen is dat ze ervanuit gaan dat je al weet hoeveel onderwerpen er zijn. Daarnaast vertrouwen ze erop dat documenten die vallen onder hetzelfde onderwerp ook een vergelijkbare stijl hebben. Bij de vragen voor de Nationale Wetenschapsagenda kunnen we die aanname niet maken: wetenschappers gebruiken het jargon van hun vakgebied. Daarom hebben we gekozen voor een eenvoudige, maar robuuste oplossing, die voor iedereen vrij te gebruiken is.

TermTreffer

TermTreffer is een computerprogramma voor extractie van kernwoorden (vaktermen) uit digitale Nederlandstalige teksten. Het programma is ontwikkeld in opdracht van de Nederlandse Taalunie. TermTreffer is in essentie zeer eenvoudig: je voert een tekstbestand in, en het programma vertelt je welke woorden en woordgroepen vaker voorkomen dan in een gemiddelde Nederlandse tekst. Dat geeft ons een handvat om teksten met elkaar te vergelijken: als ze overlappen in de kernwoorden die ze gebruiken, gaan ze misschien wel over hetzelfde onderwerp.

Sorteren

Blijft over de vraag: hoe kunnen we de teksten automatisch groeperen? Daarvoor hebben we gekozen voor een aanpak gebaseerd op grafen. Een graaf is een netwerk van knooppunten die met elkaar verbonden zijn (voorbeeld hieronder). In ons geval staat ieder knooppunt voor een vraag. Wij hebben voor iedere vraag berekend wat de vijf meest vergelijkbare vragen zijn (kijkend naar de kernwoorden), en een verbinding gemaakt tussen de vraag en die andere vragen. In het resulterende netwerk zie je dat er groepen ontstaan van vragen die allemaal met elkaar verbonden zijn. Met een clusteringsalgoritme kan je die groepen automatisch van elkaar onderscheiden. Dit zijn de onderwerpen waarover mensen vragen gesteld hebben. Voor de onderwerpen met meer dan honderd vragen hebben we dezelfde techniek opnieuw toegepast, maar dan met een top-3 van vergelijkbare vragen. Daarmee werd het mogelijk om sub-clusters (=deelonderwerpen) te herkennen.

Hier is een eerder gemaakt voorbeeld. In dit geval zijn er allerlei dieren met elkaar verbonden die volgens een veelgebruikt model op elkaar lijken. Er is een clusteringsalgoritme gebruikt om de groepen van elkaar te onderscheiden, en om ze allemaal een kleurtje te geven. (Hier staat meer uitleg.)

Iteratief

De eerste keer dat we bovenstaande stappen uit hebben gevoerd kwamen er al wel redelijke clusters uit, maar werden ook veel verbanden gelegd die niet erg zinvol waren; vanwege de aard van de teksten die gesorteerd moesten worden kwam het woord ‘wetenschap’ bijvoorbeeld veel vaker dan gemiddeld voor. Maar het feit dat twee vragen het woord ‘wetenschap’ bevatten is natuurlijk geen reden om te denken dat ze over hetzelfde onderwerp gaan. Daarom hebben we ook gewerkt met een blacklist: na inspectie van kernwoorden en clusters is er een lijst opgesteld met woorden die genegeerd kunnen worden bij het sorteren van de vragen. Zo zijn de clusters steeds beter geworden.

Resultaat

Uiteindelijk heeft de procedure van het sorteren (keywords vaststellen, vragen groeperen, groepen van vragen clusteren) geresulteerd in twaalf clusters. Op basis van deze clusters zullen de vragen over de verschillende commissies van NWO verdeeld worden. De commissies kunnen dan in hun clusters de meest interessante vragen vaststellen. Zonder deze automatische clustering was het onmogelijk geweest de vragen snel te sorteren.

Zelf doen?

Dit is een leuk resultaat ten behoeve van een aansprekend nationaal project dat aan zijn eigen succes (bijna 12000 vragen!) ten onder dreigde te gaan. Maar deze methode is natuurlijk breed toepasbaar. De Nederlandse Taalunie heeft de TermTreffer laten ontwikkelen om gebruikers van vaktaal, zoals vertalers en schrijvers van technische teksten, software te verschaffen die eenvoudig te gebruiken is en waarmee professionele resultaten verkregen kunnen worden. Als u snel wilt weten welke onderwerpen in een bepaalde tekst worden aangesneden, welk taalgebruik voor die tekst specifiek is of welke uitdrukkingen kenmerkend zijn voor een bepaald vakgebied, dan is de TermTreffer een eenvoudig en doeltreffend hulpmiddel.

Het sorteren is op dit moment niet zo eenvoudig zelf op te pakken maar voor de doorzetter zijn hier toch ook mogelijkheden. Dit experiment liet zien dat het combineren van relatief toegankelijke software tot aardige resultaten kan leiden.