lunes, mayo 17, 2010

El traductor de Google y el euskera (I)

El viernes 14 de mayo, el sistema de traducción automática de Google activó cinco nuevos pares de lenguas en versión "alpha": armenio, azerí, georgiano, urdu y euskera.

Tal y como transmitieron en su blog, son ya 57 las lenguas con las que trabaja este sistema, y subiendo...

Así que en este post me gustaría hacer un pequeño análisis de los resultados que ofrece la traducción español-euskera de GoogleT (dejaremos el inverso y la combinación con otras lenguas para más adelante) y comparar estos resultados con los de los otros dos traductores automáticos disponibles actualmente en la red: Opentrad y el sistema del Instituto Cervantes, ambos considerados también un prototipo.

Vayamos por partes y por hitos lingüísticos. De momento, he seleccionado únicamente un par de casuísticas para no saturar el post.

Saludos, despedidas y expresiones de cortesía

Comenzaremos por un caso práctico que podría servir para iniciar o terminar un correo electrónico dirigido a un euskaldun. Para ello, he escogido tres ejemplos, en orden creciente de formalismo:

a) Hola, ¡cuánto tiempo! ¿Cómo estás?
GoogleT: Kaixo, zenbat denbora! Zer moduz zaude?
Opentrad: Kaixo, zenbat denbora ¡ !, ¿ nola egon ?
IC: Kaixo, aspaldiko! Zer moduz?
Traducción correcta: Kaixo, aspaldiko! Zer moduz (zaude)?

b) Buenos días / Buenos días María / Buenas tardes / Buenas noches (4 traducciones)
GoogleT: Egun on / Egunon María / Arratsalde on / Good night
Opentrad: Egun onak / Maria egun onak / Arratsalde onak / Gabon
IC: Egun on / Egun on María / Arratsalde on / Gabon
Traducción correcta: Egun on / Arratsalde on / Gabon

c) A la espera de tus noticias, recibe un cordial saludo
GoogleT: zure erantzuna zain, agur bero bat jaso
Opentrad: Zure erantzunaren zain, bihotzeko bat hartzen du agur egiten dut
IC: Zure erantzuna zain, jasotzen du agur bero bat
Traducción correcta: Zure erantzunaren zain, agur bero bat

Oraciones simples

A continuación, seguiremos la prueba con algunas oraciones simples (sujeto - verbo - objeto) tomadas de elcorreo.com.

a) Isidro Elezgarai será el pregonero de la Aste Nagusia
GoogleT: Isidro Elezgarai Aste Nagusia de heraldo da
Opentrad: Isidro Elezgarai Aste nagusiaren pregonaria izango da
IC: Isidro Elezgarai Aste Nagusiaren pregoilaria izango da
Traducción correcta: Isidro Elezgarai Aste Nagusiaren pregoilaria izango da

b) El presidente del Gobierno defiende las reformas anunciadas
GoogleT: Gobernuko presidenteak defendatu du erreforma iragarri du
Opentrad: Gobiernoren presidenteak erreforma iragarriak defendatzen ditu
IC: Gobernuko presidenteak zerbaiten berri emandako erreformak dfendatzen ditu
Traducción correcta: Gobernuko presidenteak iragarritako erreformak defendatu ditu

Conclusiones
Dejando de lado los resultados de Opentrad y el sistema del Instituto Cervantes (que en esta prueba ha salido bastante bien parado) veamos qué se podría deducir del funcionamiento de GoogleT en su traducción español-euskera:
  1. No ajusta bien las mayúsculas de inicio de frase cuando desparece la primera palabra de la oración original (zure erantzunaren zain...)
  2. Sufre bastante carencias en su diccionario: confusiones y falta de cohesión léxicas y gramaticales ("egun on / egunon", pregonero-heraldo, anunciadas, Aste Nagusia), y cuando no dispone de la equivalencia completa de un término en su diccionario (recordemos que GoogleT pivota siempre sobre el inglés) lo dejan en inglés, como en "Buenas noches = Good night".
  3. Sintácticamente, no se ajusta al orden "sujeto - objeto - verbo" paradigmático del euskera
  4. Por otro lado, es el único sistema que convierte correctamente (para este caso al menos) el presente histórico del español a pasado, uso muy frecuente en el lenguaje periodístico actual
  5. Y ya no he continuado con ejemplos más complejos (coordinación, subordinación, preposiciones polisémicas...) porque los resultados dejaban demasiado que desear...
En resumen, aún le queda mucho por aprender a este nuevo sistema. Veamos a qué velocidad avanza y si los corpus que utiliza para su aprendizaje le aportan la calidad de conocimiento necesaria para poder mejorar. Intentaré realizar pruebas periódicas de este sistema para que podamos dar cuenta real su evolución.

Y aunque no venga al caso, yo me sigo preguntando... ¿dónde está el traductor automático del Gobierno Vasco?

2 comentarios:

Eneko Goikoetxea 1988 dijo...

Sí, a google le falla bastante la traducción... tanto español-euskera como español-inglés o viceversa. Deberían centrarse más en mejorar lo que tienen en vez de ir añadiendo más idiomas. Por cierto, en la última sería "defendatzen ditu", "defendatu ditu" sería "los ha defendido"

Gran aporte, gracias.

Anónimo dijo...

The information were very helpful for me, I've bookmarked this post, Please share more information about this
Thanks