Automatisch Vertalen |
(Versie januari 2009)
Een heel globaal overzicht van waar automatisch vertalen eigenlijk over gaat en wat nu de grootste problemen zijn kun je vinden in een artikel op deze site, getiteld Aspecten van Automatisch Vertalen (HTML, ca 20 pagina's, versie december 2003) dat ook in PDF en in MS Word format beschikbaar is. Er bestaat ook een PowerPoint presentatie die grotendeels op dit verhaal gebaseerd is, maar die is recenter (januari 2007) en bevat een aantal uitbreidingen die in het artikel niet aan de orde komen. We behandelen daarin achtereenvolgens
Er bestaat op dit moment geen enkel systeem dat ook maar bij benadering zo goed vertaalt als de menselijke vertaler, en misschien zal dat over 25 jaar nog niet eens zoveel anders zijn. Niettemin kun je op dit moment gewoon vertaalsystemen kopen, voor betrekkelijk weinig geld. Gezien de matige kwaliteit er van, zijn ze eigenlijk alleen te gebruiken voor mensen die globaal kennis willen nemen van de inhoud van teksten in vreemde talen, zoals bijvoorbeeld websites of emails. Voor het vertalen van zakenbrieven of sollicitatiebrieven zijn deze systemen totaal ongeschikt.
Qua prestaties zijn ze eigenlijk het beste te vergelijken met een middelbare scholier die vanuit zijn eigen taal naar het buitenlands vertaalt, met dien verstande dat vertaalsystemen in de regel een betere woordenschat hebben maar vaker verkeerde keuzes maken uit de mogelijkheden waardoor ze vaker onzin produceren, en dat scholieren de neiging hebben om hun foute vertalingen wel in grammaticaal en begrijpelijk Nederlands te formuleren.
De conclusie dat automatisch vertalen dus nutteloos en hopeloos is, ligt dan ook erg voor de hand. Het is echter geen juiste conclusie. Vanuit het oogpunt van de onderzoeker is het natuurlijk heel vervelend dat we nog niet echt weten hoe het moet (maar het houdt hem wel nog even van de straat), en ook een gewone burger die een Japanse brief wil schrijven of een IJslandse krant wil lezen heeft er eigenlijk niet zo veel aan.
In een bedrijfsmatige omgeving ligt het echter heel anders: daar zijn vragen zoals 'is de vertaling goed' of 'hebben we het vertaalprobleem eindelijk begrepen' volstrekt irrelevant. Daar bestaat maar een enkel criterium dat alles bepaalt: het geld. De vraag die men zich daar stelt is dan ook: 'kunnen we door gebruikmaking van automatisch vertalen onze kosten reduceren of onze winst vergroten'. Met name in grote vertaalbedrijven of in bedrijven die over eigen vertaaldiensten beschikken blijkt dat kostenbesparingen van 40% moeiteloos te realiseren zijn door teksten eerst door een vertaalsysteem (imperfect) te laten vertalen, om ze vervolgens door een menselijke vertaler te laten corrigeren. In vergelijking met volledig menselijke vertaling (waar in een professionele omgeving elke vertaling ook altijd door een revisor gecontroleerd en gecorrigeerd wordt), is het eerste deel van het traject (de machinale vertaling) dramatisch veel goedkoper, en het tweede deel (de correctie) een stukje duurder (door de slechtere kwaliteit). Maar op het gehele traject (inclusief de eerste investering in de aanschaf en aanpassing van het vertaalsysteem) wordt een aanzienlijke besparing bereikt.
In een ander artikel (Machine Translation: Towards New Metaphors, HTML, in het Engels) vind je mijn huidige gedachten over de beste manier om het vertaalprobleem tegemoet te treden. Het motto is hierbij duidelijk 'verdeel en heers': probeer niet in een keer alles op te lossen, maar probeer lokale oplossingen te bedenken voor deelproblemen.
Een niet al te diepgravende en behoorlijk gedateerde, maar wel volledig op het web gepubliceerde inleiding over automatisch vertalen is Machine Translation: An Introductory Guide, van Arnold et al (1994). Daar vind je ook een hele hoop literatuurverwijzingen.
In het onvolprezen Compendium of Translation Software van John Hutchins vind je de meest complete lijst van vertaalsystemen en vertaalhulpmiddelen die er bestaat.Op dit moment ken ik een paar bedrijven die vertaalsystemen van en naar het Nederlands aanbieden, maar het blijkt uiteindelijk in de meeste gevallen om een enkel systeem te gaan, SYSTRAN, dat door anderen onder verschillende namen wordt aangeboden, al wordt dat er niet altijd bij verteld:
Het beste kwaliteitsoordeel kun je krijgen door vanuit de vreemde taal naar het Nederlands te vertalen. Je kunt er van uit gaan dat het Engels of Frans wat uit het systeem komt als je vanuit het Nederlands vertaalt net zo goed (of krom) is als het Nederlands dat er uit komt wanneer je vanuit de vreemde taal vertaalt.
Er zijn mij op dit moment twee websites bekend die je in staat stellen teksten van en naar het Nederlands te vertalen (eigenlijk een paar meer, zie boven, maar die zijn niet echt verschillend) maar ik ga er van uit dat jullie enige kennis van Frans hebben, en daarbij ook van het Engels. We kijken vooral naar vertalingen vanuit het Frans naar het Engels.
Helaas zijn de vertaalwebsites die ik ken allemaal commercieel, en dat betekent dat ze in de regel niet in detail vertellen hoe hun systemen werken. We zullen ons er daarom toe beperken om een tekst (die we van het web halen) door verschillende vertaalsystemen te laten vertalen, en vervolgens te analyseren wat er fout gaat.
De vertaalsystemen waar we naar kijken zijn:
Als voorbeeld heb ik een tekst genomen uit een franse krant, Le Monde (http://www.lemonde.fr), over de vuurwerkramp in in Enschede. We hebben de volgende versies: het origineel in het Frans, de vertaling door SYSTRAN, de vertaling door Reverso, de vertaling door Google, en de vertaling door WorldLingo, alle in het Engels.
Daarnaast geven we van dit artikel ook de Nederlandse vertalingen van Systran, Google en van WorldLingo. Eerlijkheidshalve moeten we er wel op wijzen dat de verhaspeling van de namen van de Nederlandse gezagsdragers hun origine hebben in de Franse tekst, en niet in het vertaalproces. Om vertaling en origineel gemakkelijk te kunnen vergelijken hebben we de eerste zinnen van de Franse tekst en hun vertaling door SYSTRAN even op een pagina naast elkaar gezet, zowel voor de Engelse als voor de Nederlandse vertaling.
De kwaliteit die bovenstaande systemen opleveren mag dan teleurstellend zijn, zeker in vergelijking met wat een menselijke vertaler er van zou maken, we moeten helaas wel vaststellen dat dit op dit moment het beste is wat vertaalsystemen zonder menselijk ingrijpen kunnen presteren
Mocht je kennis van het Frans echt in de buurt van het nulpunt komen, dan mag je de opdrachten ook voor een andere taal doen, bv Duits. De meeste grote dagbladen hebben tegenwoordig een webversie, dus krantenteksten in verschillende talen zijn gemakkelijk te vinden. Lever er dan wel de gebruikte teksten en hun vertalingen bij. Je mag ook een ander vertaalsysteem gebruiken, wanneer je er toevallig een vindt of in je bezit hebt.
Bestudeer de fouten die elk van de systemen maakt, en probeer die in een aantal categorieen in te delen (bv "onbekend woord aangetroffen", "woord wel bekend, maar verkeerde betekenis gekozen", "foute verwijzing van persoonlijke voornaamwoorden", "zin fout ontleed", etc)
Bekijk op basis van van de bovenstaande foutencategorieen of de drie systemen in dit opzicht wezenlijk van elkaar verschillen.
Bedenk zelf een aantal verschijnselen waar vertaalsystemen het wel eens moeilijk mee zouden kunnen hebben, en probeer zinnetjes te maken waarmee je kunt onderzoeken of de gegeven systemen deze problemen aan kunnen. Laat vervolgens de verschillende systemen de zinnen vertalen en rapporteer over het resultaat. In opdracht 1 staan al wat voorbeelden van zulke verschijnselen, maar er zijn er natuurlijk nog veel meer.
Er bestaan ook andere hulpmiddelen bij het vertalen:
Stel je bent consultant op het gebied van electronische vertaalhulpmiddelen. Vertel (en beredeneer) wat voor vertaalhulpmiddelen je zou aanraden aan
Dit is een bonte verzameling www sites die iets met automatisch vertalen te maken hebben. Ze zijn niet allemaal even up-to-date (het lijstje wordt niet echt meer onderhouden, en sommige links werken misschien niet eens meer), maar ze geven je toch een idee van wat er zoal gebeurt in het veld. Er zitten ook verwijzingen bij naar on-line vertaalsystemen waarmee je kunt experimenteren, naar tijdschriften, projecten, evenementen, etc.
Steven Krauwer (s.krauwer@uu.nl) | Utrecht Institute of Linguistics UiL OTS |
Phone +31 30 253 6050 | Faculty of Humanities, Utrecht University |
[Page last modified: 27-10-2024] | Drift 10, 3512 BS Utrecht, Netherlands |