Tuesday, February 03, 2009

Al die telefoontjes en andere Nokia’s

Sinds een jaar heb ik een behoorlijke mobiele telefoon, nadat ik jaren met een Nokia 1100 had gedaan. En ik ben nog steeds erg enthousiast over alle mogelijkheden die zo’n apparaatje biedt om sneller productief te zijn, of je leven te vergemakkelijken. Denk maar aan GPS of e-mail.

Daarom heb ik er in dit hier laatste weken nogal wat aandacht aan besteed. Maar eigenlijk vind ik dat die techniek niet op dit blog thuishoort. Daarom heb ik telefoontjesberichten verplaatst naar een tweede blog: mobiele-computers.

Dan kunnen we het hier hebben over dingen die  niet ouder worden.

Wednesday, November 15, 2006

control room only

Volgens een artikel in Nature heeft Google een nieuwe vertaalsysteem ontwikkeld dat vertalen door een computer totaal anders benadert dan conventionele vertaalsoftware. In plaats van een expertsysteem waarin de kennis van idioom en grammatica van de talen is opgenomen, leert het programma door vergelijking van een enorme hoeveelheid documenten zoals krantenartikelen. Deze vergelijking levert een ruwe vertaling op die wordt bijgewerkt met een programma dat bijvoorbeeld de woordvolgorde omzet volgens de regels van de doeltaal. Het systeem, dat alleen maar in betaversie beschikbaar is, wist aanvankelijk niets van de brontalen, maar heeft deze lerenderwijs onder de knie gekregen. Het zou het voor formele teksten nu al kunnen concurreren met professionele vertalers. Meer moeite heeft het overigens met omgangstaal, en met talen als Duits, en Nederlands.

Ik heb het programma van Google getest. Jammer genoeg kan het nog niet van en naar het Nederlands worden gebruikt, wel van en naar Duits. Als voorbeeld een vertaling naar het Engels van het bekende gedicht van Goethe. Deel van de charme van dit gedicht is de zeer eenvoudige taal, het zou dus makkelijk te vertalen moeten zijn:

Über allen Gipfeln
Ist Ruh'
In allen Wipfeln
Spürest Du
Kaum einen Hauch;
Die Vögelein schweigen im Walde
Warte nur, balde
Ruhest Du auch.

Over all summits
peace is
in all treetops
hardly feels
you a breath;
The small birds are silent in the forest
control room only,
soon rest you also.

Het verbaast me niets dat alle poëzie uit de tekst is verdwenen. Wat me wel verbaast is dat de vertaling rammelt van de fouten, met control room only als hilarisch dieptepunt. Ik vraag me af welke teksten er door Nature zijn beoordeeld als concurrerentie voor het werk van professionele vertalers. En wat daar de criteria voor waren.

Schaakprogramma's zijn een goed voorbeeld van hoe software zich in de loop van de jaren kan ontwikkelen. Die software is vanaf halverwege de jaren '70 geëvolueerd van de wat sullige 2-ply alfa-beta pruners tot brutale krachtpatsers als Shredder en Crafty, die al jaren beter schaken dan vrijwel iedereen behalve de beste grootmeesters. Daarmee leveren ze een uitstekend bewijs voor de stelling dat je nooit het doorzettingsvermogen van programmeurs moet onderschatten. Maar als het programma van Google exemplarisch is voor machinevertalingen hebben vertalers voorlopig nog niets van de computer te vrezen.

Saturday, November 11, 2006

Suspension of Disbelieve

Ik ben Angels and Demons aan het lezen, van Dan Brown. De eerste paar honderd bladzijden van het boek irriteerden me enorm omdat het allemaal zo ongeloofwaardig is. Hij is het met me eens, dacht ik toen ik deze passage las die de verwarring weergeeft van Vittoria Vetra, een van de twee hoofdpersonen, en de dochter van een katholieke priester:

She forced herself to hold on and assess the situation logically. But the harder she focused, the less she understood. Her father had been murdered. CERN had suffered a major breach of security. There was a bomb counting down somewhere that she was responsible for. And the director had nominated an art teacher to help them find a mythical fraternety of Satanists
Precies zo is het: er is zo'n enorme hoeveelheid ongerijmdheid dat je vanzelf gaat denken aan suspension of disbelieve, althans aan het aan barrels gaan ervan.
Een paar bladzijden verder zitten Vitorria Vetra en Robert Langdon in een science fiction-jet onderweg naar Rome, en welke vraag ligt er dan meer voor de hand dan:

'Do you believe in God, Mr Langdon?'
The question startled him (...) Langdon was not a religious man. He respected the power of faith, the benevolence of churches, the strength religion gave so many people... and yet, for him the intellectual suspension of disbelieve that was imperative if one were truly going to 'believe' had always been too big an obstacle for his academic mind. 'I want to believe,' he heard himself say.

Suspension of disbelieve is mogelijk omdat we niet anders kunnen dan denken door middel van symbolen, waarbij het geen verschil maakt of het om literaire of religieuze symboliek, of om de reclame gaan: mensen geloven in de sausage, omdat ze in de sizzles geloven.
Voor een verhaal moet je net zo goed je gezonde verstand even opschorten als voor religie. Als het te gek wordt, geef je er als lezer, en misschien ook wel als gelovige of consument, de brui aan. Dan moet een ander het boek maar uitlezen, of naar de kerk gaan; en als consument stap je naar de concurrent. Een fictieschrijver die in zijn werk met een metareferentie aan de suspension of disbelieve aankomt, begeeft zich op glad ijs. Of is waarschijnlijk te zeker van zichzelf. Zoals Dan Brown in Angels and Demons.
Op het web vind je veel over suspension of disbelieve, bijvoorbeeld hier

Tuesday, November 07, 2006

OmegaT

Een paar maanden geleden kreeg ik een opdracht om een bedrijfspresentatie in PowerPoint te vertalen. Gewoonlijk gebruik ik daar WordFast voor, maar dit PowerPoint-document bleek te complex te zijn. Wat ik ook probeerde het programma bleef bij de eerste dia steken. Collega's raadden me aan om Trados in te zetten, maar ik vind zevenhonderd Euro te veel geld voor een programma dat als het om PowerPoint gaat niet gegarandeerd perfect zijn werk doet. Na wat zoeken heb ik het met de combinatie OpenOffice/OmegaT uitstekend voor elkaar gekregen. OmegaT saved the day, en de opdrachtgever van die PowerPoint-presentatie is daarna een uitstekende vaste klant geworden. Sindsdien heb ik een zwak voor dat programma.

OmegaT is een vertaalgeheugenmanager, een programma dat je bij het vertalen gebruikt, en dat ervoor zorgt dat je een bepaald segment van de brontekst maar een keer hoeft te vertalen. Als je – ongeveer – hetzelfde segment weer in die tekst tegenkomt, zal OmegaT die vertaling voor je invullen, of je een fuzzy match aanbieden die je desgewenst in je tekst kunt opnemen. Daardoor kun je sneller werken, zeker als er veel herhalingen in je brontekst zitten. Tijd is geld. Bij het vertalen van teksten die vaak worden herzien, zoals websites, of met kleine wijzigingen opnieuw worden uitgegeven zoals handleidingen, worden dankzij vertaalgeheugenmanagers honderden miljoenen Euro's per jaar bespaard. Daarom kun je belangrijke opdrachten in die sfeer kun je zonder een dergelijk programma wel vergeten.

Anders dan de meeste vertaalgeheugenmanagers is OmegaT geschreven in Java. Daardoor kan het met geen of weinig aanpassingen onder verschillende besturingssystemen (Linux, OS X, Solaris en Windows) worden gebruikt. Ik werk liever met Linux (met KDE) dan met Windows, dat maakt OmegaT voor mij interessant. Bovendien is OmegaT software libre. Je kunt het gratis downloaden en je mag het aanpassen binnen de regels van de GNU General Public License (GPL). Dat laatste vind ik nog belangrijker dan dat het niets kost.

De praktijk
Installatie
Als je het programma alleen onder Windows (vanaf 98) wilt gebruiken kun je een kant-en-klaar installatieprogramma downloaden. Ik heb de source code van het programma gedownload en daar met Netbeans een build van gemaakt die ik zowel onder Windows als Linux kon laten draaien. Waar je bij de build rekening mee moet houden is dat je zonodig de bibliotheken moet aanpassen aan de Java Runtime Environment die je gebruikt. Zo gebruik ik onder Windows versie 1.6 en onder Linux 1.5. Daarom heb ik OmegaT laten compileren voor versie 1.5. Die werkte meteen op beide systemen. Er is veel kritiek op Java (langzaam, saaie, omslachtige programmeertaal) maar als het om portabiliteit gaat, is er van hier tot Mars niets beters te krijgen.
Vertalen
Omdat OmegaT gratis is, heb ik bij wijze van betaling de website van dat project vertaald. De methode is eenvoudig. Je start een nieuw project op, waarna OmegaT een directory-structuur opzet met ondermeer folders voor source- en targetbestanden. Eventueel stel je nog wat filters in. Als je soortgelijke programma’s kent, werkt OmegaT makkelijk en intuïtief. Met wat sneltoetsen loop je door de segmenten van de brontekst, die je stap voor stap vertaalt. Matches kun je automatisch door het programma laten invoeren, of je kunt fuzzy matches gebruiken en die bewerken. Het enige probleem was dat OmegaT niet meteen de woordenlijst wilde openen die ik had samengesteld. Dat lukte wel na het toevoegen van de extensie .utf8 aan de bestandsnaam, een tip die ik vond in het archief van een van de aan OmegaT gewijde postlijsten. De kwaliteit van de matches en de fuzzy matches van het programma is dik in orde.

Wat echter minder is dan wat ik van WordFast gewend ben, is de manier waarop het programma met glossaries werkt. Het enige wat het programma doet, is aangeven dat er een woord in de woordenlijst gevonden is dat overeenkomt met een woord in de brontekst. Vanuit het programma kun je geen woorden toevoegen, en het waarschuwt je niet als je een woord niet gebruikt als je het volgens de woordenlijst wèl zou moeten gebruiken. Bij de teksten die ik vertaal zijn woordenlijsten veel belangrijker dan vertaalgeheugens. Daarom kan ik het programma nog niet inzetten voor andere dingen dan webprojecten, en voor projecten waarbij WordFast me niet kan helpen.

Met WordFast is het vertalen van HTML-bestanden een tricky karwei. Eerst moet je met Plustools een tussenbestand maken. Dit tussenbestand vertaal je, en daarna moet WordFast van dat tussenbestand weer een HTML-bestand maken. Dat werkt omslachtig, en het loopt nogal eens in de soep. Op dit gebied is OmegaT absoluut superieur. HTML-bestanden kan het programma direct aan, je ziet alleen de tekst die je moet vertalen, de tags blijven op de achtergrond. Na de vertaling heb je direct een perfect html-bestand. Uitstekend dus. Hier is het resultaat zoals het vrijwel direct uit OmegaT is gekomen.

Conclusie
Voordelen:
Open source, en Java. Werkt intuïtief en eenvoudig, ik heb de gebruiksaanwijzing eigenlijk niet nodig gehad. Uitstekende behandeling van html-bestanden. Goede matches en fuzzy matches. Vertaalgeheugens in tmx formaat level 2. Werkt met dezelfde interface onder Windows, Linux, en andere besturingssystemen. Voor een gratis programma is het uitstekend.
Nadelen:
Doordat het programma in Java is geschreven werkt het soms een beetje traag. WordFast is sneller. De glossary-functie is nog niet op het niveau van de rest van het programma. Voor veel vertalingen is een goed functionerende woordenlijst veel belangrijker dan goede vertaalgeheugens.
Verlanglijstje:
Conversiefilters voor het nieuwe Microsoft XML-formaat, desnoods via OpenOffice.Org.
Beetje meer tempo alstublieft. Oké, Java is niet snel voor dit soort programma's, maar WordFast werkt echt veel sneller en het is in het notoir trage Visual Basic geschreven.
Had ik beter functionerende woordenlijsten al genoemd?

Monday, November 06, 2006

Plugin voor Microsoft Office

Microsoft heeft het Microsoft Office Compatibility Pack for Word, Excel, en PowerPoint beschikbaar gesteld, waarmee bestanden in de formaten van office 2000 en 2003 kunnen worden opgeslagen in het formaat van MS Office 2007, het Open XML-formaat.

In tegenstelling tot eerdere versies van MS Offfice, zijn de formaten van Office 2007 openbaar, daardoor kunnen programma's buiten MS Office deze nu makkelijk importeren, zonder dat bij de import informatie over hoe het document is opgemaakt verloren gaat, of verkeerd wordt geïnterpreteerd. Dat is belangrijk voor gebruikers van bijvoorbeeld OpenOffice want die kunnen straks evengoed een bestand van MS Office lezen en schrijven als degenen die de Microsoftproducten blijven gebruiken.
Het ligt voor de hand dat ook vertaalgeheugenapplicaties als OmegaT, of Trados iets met het nieuwe formaat van MS Office zullen gaan doen. Want ook daarmee kan voortaan direct de tekst van Word bewerkt worden, zonder dat er nog een vertaalslag hoeft te worden gemaakt. Dat zal de kwaliteit van het werk dat dergelijke programma's leveren, en het gemak waarmee die formaten voor vertaligen te hanteren zijn enorm verbeteren.

In elk geval, de plugin vind je hier. En hier is een interessante blog over de ontwikkeling van het Open XML-formaat.

Thursday, November 02, 2006

PW

P.W. Botha is dood. Dit is geen blog over de politiek van Zuid-Afrika, en daarom zal ik het niet over de man hebben. Wel over het grafschrift dat je hier vaak in de kranten ziet: hij kon de Rubicon niet oversteken. Volgens de verhalen die je er over leest, speelde zich in het Zuid-Afrika van de jaren ‘80 een burgeroorlog af. Voor iedereen was duidelijk dat de Apartheid zijn langste tijd had gehad. Op 15 augustus 1985 heeft Botha in Durban een toespraak gehouden waarin hij op een zeer gematigde manier aangaf dat de zwarte bevolking in de toekomst meer politieke macht zou krijgen. Omdat het hier, ondanks alle gematigdheid, toch om een fundamentele verandering gaat, heeft men altijd van de Rubicontoespraak van Botha gesproken. In 1989 had Botha een cerebro vasculair accident waarna F.W. de Klerk hem uit de regering heeft gewerkt. Zo is het FW geworden die, om maar in deze terminologie te blijven, uiteindelijk de Rubicon is overgestoken, en niet PW.

Dè Rubicon was die Romeinse rivier waar volgens de wetten van Rome een generaal met zijn leger niet over heen mocht trekken. Toen Caesar dat ergens tussen 50 en 40 vCh toch deed, werd meteen de ratio achter de regel duidelijk: hij pleegde een staatsgreep waarna de republiek instortte en Rome een dictatuur werd.
De Rubicon oversteken betekent, vooral in de Angelsaksische wereld met zijn traditie van pompeuze politieke beeldspraak, een breuk met het verleden.

Beeldspraak brengt bijna altijd onzuiverheid met zich mee. Ik kan me niet voorstellen dat men met rubicontoespraak de bijgedachte heeft gehad (of nog steeds heeft) aan de chaos die Caesar in zijn land heeft veroorzaakt met het oversteken van die rivier. Wat dat betreft doet het gebruik van 'Rubicon' denken aan de crusades van Bush die daarmee ook refereert aan die agressieve vorm van Europees kolonialisme, waarbij de kruisvaarders uiteindelijk hebben verloren.
Feiten die in de propaganda van al Kaïda hard en effectief worden uitgespeeld.

Monday, October 30, 2006

Wie weet er een woordenboek?
Op een van de Nederlandse postlijsten voor vertalers vroeg iemand naar een Nederlands<>Engels juridisch, en eventueel economisch/financieel woordenboek. Want dan kon ze de volgende keer tenminste goed beslagen ten ijs komen. Om twee reden vond ik dat een merkwaardige vraag.

Zoals elke wetenschap heeft recht zijn eigen taal, misschien met dat verschil dat dagelijkse begrippen in de rechtstaal een betekenisverschuiving krijgen. Denk maar aan woorden als 'overtreding' tegenover 'misdrijf' en 'eigendom', tegenover 'bezit'. Wie de rechtstaal kent, kan die woorden nooit meer onbevangen gebruiken. Een juridische tekst, zoals een contract, vertaal je daarom niet naar Nederlands, maar naar juridisch Nederlands. Dat verschil overbrug je niet met een woordenboek.

Recht geeft normen en regels voor de praktijk. Wie van die praktijk niets snapt, begrijpt ook de regels niet, ook al kan hij de theorie nog zo goed toepassen. Voor de vertaling van een juridische tekst is dus een gedegen kennis van de praktijk uit de doeltaal en, de praktijk waarbinnen de doeltaal wordt gehanteerd noodzakelijk. Zonder die kennis moet je er idealiter niet aan beginnen. De gedachte dat je daar met een woordenboekje wel uitkomt, is een slechte illusie.

Slechte illusies vormen een beroerde basis voor een vertaling.