Foutmelding

Deprecated function: The each() function is deprecated. This message will be suppressed on further calls in _menu_load_objects() (regel 579 van /var/www/vhosts/taaluniebericht.org/2014.archief.taaluniebericht.org/includes/menu.inc).

Editie november 2015

Dit is een oude versie van Taalunie:Bericht en wordt niet meer bijgewerkt. Ga voor nieuwe artikelen naar taaluniebericht.org.

Rubriek: 
Auteur: 
Nick Kivits

Kan de eindredacteur zijn biezen pakken?

Tikfouten in woorden herkennen gaat de gemiddelde tekstverwerker prima af. Dat is niet het probleem. Maar verkeerde woordkeuzes, tautologieën en passieve zinsconstructies herkennen is heel andere koek. Toch is er copyeditingsoftware die ook daar steeds beter in wordt. Heeft de eindredacteur zijn beste tijd gehad?

Op een gemiddelde dag stromen er meer dan 400 nieuwsberichten uit de vingers van de redacteuren van het ANP (het Algemeen Nederlands Persbureau). Die nieuwsstukjes moeten aan twee eisen voldoen: ze moeten feitelijk kloppen én ze moeten zo opgeschreven zijn dat een brede doelgroep ze kan begrijpen. Om de redactie daarmee te helpen ontwikkelden studenten van de Fontys Hogeschool eind 2014 Readably, een semiautomatische copyeditingtool die teksten analyseert en aangeeft of ze niet te moeilijk zijn voor de doelgroep.

Readably is zomaar één van de voorbeelden van software die het leven van de schrijver en de eindredacteur makkelijker moet maken. 'Het meest basale niveau van zulke semiautomatische copyeditingsoftware zijn de spellingcheckers zoals die in Microsoft Word', verduidelijkt Antal van den Bosch, hoogleraar Language and Speech Technology aan de Radboud Universiteit. 'Maar die kijkt alleen of een woord goed geschreven is. Betere systemen houden ook de context in de gaten. De woorden zij en zei zijn bijvoorbeeld allebei goed gespeld, maar of ze goed gebruikt zijn is afhankelijk van de context waarin ze staan.'

Het verschil herkennen tussen 'zij' en 'zei'

 

In een poging tot betere semiautomatische copyeditingsoftware te komen, lanceerde Van den Bosch in 2011 samen met collega's van de Universiteit van Tilburg de online spellingscorrector Valkuil.net. Dat is een taalhulp die niet alleen op spelling let, maar die ook controleert op verwarringen en onterecht gesplitste woorden. Schrijf je ergens 'zij' in plaats van 'zei', dan trekt Valkuil aan de bel. Hetzelfde gebeurt wanneer je per abuis 'verpleeg tehuis' schrijft waar 'verpleegtehuis' hoort te staan.

'De software werkt nog niet perfect,' geeft Van den Bosch toe, 'maar Valkuil laat wel zien wat er al mogelijk is'. En ook andere varianten van semiautomatische copyeditingsoftware zijn er genoeg, volgens de hoogleraar. Zo zijn er al tools die de leesbaarheid van een document testen door zinslengtes te analyseren (standaard ingebouwd in Word) en die de complexiteit van een artikel berekenen. Het eveneens door de Universiteit van Tilburg ontwikkelde Frog is zo'n programma. De tool bepaalt niet alleen het taalniveau van een stuk tekst, maar speurt tevens naar tangconstructies en naar passief taalgebruik.

Hoewel tools als Valkuil en Frog al een tijd bestaan, vinden we ze nog niet terug in de software van grote aanbieders. En dat terwijl ze, volgens Van den Bosch, gemakkelijk te implementeren zijn. 'Ze zijn alleen relatief zwaar en nemen meer ruimte in beslag dan de standaard spellingcheckers. Daar komt nog bij dat grote bedrijven zoals Microsoft weinig belang hebben bij het Nederlands. Ons taalgebied is te klein voor ze. Dat zorgt ervoor dat onze tekstverwerkers inmiddels hopeloos verouderd zijn. De tekstverwerker is de dinosaurus onder de software.'

Kans voor andere partijen

 

Dat de makers van de meestgebruikte tekstverwerkers het vertikken om slimmere copyeditingtools in hun producten op te nemen, creëert kansen voor andere partijen om zich daarop toe te leggen. GridLine is zo'n partij. Het Amsterdamse bedrijf ontwikkelt taalsoftware, die gewoon in Microsoft Word gebruikt kan worden. Klinkende Taal bijvoorbeeld, een programma dat grammatica, stijl en woordkeuze in teksten analyseert. 'In een tekst voor een medisch publiek gebruik je heel andere taal dan in een tekst voor een krant of tijdschrift', aldus GridLine-oprichter Tigran Spaan. 'Onze software legt een tekst langs de stijlregels van een organisatie en geeft aan waar het wringt.' Komt de software een zinsconstructie of woord tegen dat niet bij de doelgroep past, dan wijst de software de gebruiker daarop. 

De software van GridLine is grotendeels gestoeld op het idee van regelgebaseerde technologie, waarbij software alle woorden en grammaticaregels van een taal aangeleerd krijgt. Een prima techniek, maar op universiteiten laten ze dat regeltjes stampen los. Daar gaan ze voor machine learning, weet Veronique Hoste, hoogleraar Computational Linguistics aan de Universiteit Gent. Bij die technologie leert software denken als een mens. 'Het probleem met regelgebaseerd werken is dat je op een gegeven moment aan een plafond zit. En dat terwijl taal juist iets heel flexibels is. Machine learning is net als taal flexibel. Het kijkt naar de data en probeert daar patronen uit te extraheren. En verandert dus mee met de taal.'

Een tekst moet ook lekker leesbaar zijn

 

Met behulp van machine learning ontwikkelde de Universiteit Gent een tool die de leesbaarheid van teksten meet. Dat doet het programma aan de hand van 86 verschillende taalkenmerken. De nog niet voor de buitenwereld beschikbare software (de Universiteit Gent wil binnenkort een demoversie lanceren) kijkt daarbij onder andere naar het gebruik van moeilijke woorden, passief taalgebruik, tangconstructies en anaforen.

Hoe geavanceerd die software ook is, de kans dat hij het werk van de eindredacteur uiteindelijk gaat overnemen is, volgens Hoste, klein. 'Om een tekst goed te kunnen beschouwen heb je het meest aan menselijk begrip. Dat evenaar je niet zomaar met software. Een tekst moet niet alleen aan taalregels voldoen, maar moet ook lekker leesbaar zijn. En een computer leren zien wat een artikel aangenaam maakt om te lezen, dat wordt heel moeilijk.'

Copyediting blijft dus mensenwerk, volgens Hoste. GridLine-oprichter Tigran Spaan deelt die mening. 'Mensen kunnen beter schrijven dan computers en dat zal zo blijven. Maar software kan de mens wel helpen. Dat is handig en het scheelt tijd.' Hoogleraar Antal van den Bosch gooit het over een iets andere boeg. Ja, semiautomatische copyeditingsoftware kan de eindredacteur niet in zijn geheel vervangen. 'Maar als je auteurs voorziet van betere tools, dan scheelt dat heel veel werk voor de copyeditor.' En dan zou een deel van de eindredacteuren wel eens kunnen gaan verdwijnen.

 

De Taalunie en copyediting

Op het gebied van copyediting is voor het Nederlands nog een wereld te winnen. Op de korte termijn gaat de Taalunie met belanghebbenden kijken hoe we de verschillende organisaties kunnen faciliteren op het gebied van copyediting. Eén van de resultaten van die samenwerking kunt u vinden op onze site.