miércoles, mayo 26, 2010

Cataluña no es España... según Google

En la edición impresa de La Vanguardia de ayer apareció un nuevo artículo con referencias a los resultados traducción automática de Google.

Aunque inicialmente pareciera un texto dedicado a un blog religioso catalán, la "noticia" traía sorpresa.

El susodicho gazapo consistía (y consiste) en que el original "Catalunya no és Portugal", enunciado de un post del blog referente a la visita del Papa a Barcelona en noviembre, Google lo traduce como "Catalunya no es España".

A pesar de que en el artículo se habla de la intervención de un hacker, yo me decanto más por una "postedición" del español resultante en el proceso de traducción estadístico de Google (catalán-inglés-español), en el que la elevada frecuencia de coaparición de "Catalunya" y "España" y sobre todo la aparición de la frase "Catalunya no es España" en los corpus bilingües (catalán-español) del gigante, provoca que Portugal se convierta en España como por arte de magia.

Un equívoco con concomitancias sociopolíticas y sociolingüísticas realmente interesantes que seguramente provocará un mayor rechazo hacia los sistemas actuales de TA. Una verdadera lástima...

Eso sí, a partir de ahora estaré más atenta a los resultados de la traducción automática de mi propio blog... ¿Me encontraré también con alguna sorpresa divertida?

martes, mayo 25, 2010

Detector "semiautomático" del sarcasmo

Y siguiendo con el tema del análisis de opiniones, aquí os dejo esta noticia publicada en La Vanguardia el pasado 21 de mayo sobre un "detector de sarcasmo", también conocido como SASI (Algoritmo Semi Supervisado para la Identificación del Sarcasmo).

Si incluso a los humanos nos cuesta pillar las ironías y los sarcasmos de otros... ¿será capaz de identificarlos una máquina? Permitidme que lo ponga en duda...

Gracias, Nerea ;-)

Más sobre "análisis de sentimientos y minería de opiniones"

El 24 de septiembre de 2010 tendrá lugar en Barcelona una "sesión especial sobre análisis de sentimientos y minería de opiniones" dentro del taller DyNaK del congreso ECML PKDD 2010.

Aquí os dejo algunos datos más sobre el encuentro. Como podéis comprobar, ¡éste es un tema cada día más de moda!

Motivación
A diario, millones de personas escriben sus opiniones sobre cualquier tema en distintos medios como blogs, sitios de noticias o redes sociales. La obtención de conocimiento desde esta ingente cantidad de información supone un reto que implica a varias disciplinas científicas. El análisis de sentimientos y la minería de opiniones son dos tareas relacionadas con el procesamiento del lenguaje natural y la minería de textos que tienen como principal objetivo la identificación de opiniones y actitudes en textos escritos en lenguaje natural. En esta sesión especial interesan resultados, tanto académicos como empresariales, obtenidos en el campo de la extracción de conocimiento desde contenidos generados por usuarios, y cómo afecta el aspecto temporal en estas tareas.

Temas de interés de la sesión
- Extracción y clasificación de opiniones
- Análisis de blogs y redes sociales
- Aspecto temporal del análisis de sentimientos
- Detección de plagios e ironía en textos de opinión
- Sistemas de recomendación

Ponencia invitada
"How much linguistics do we need in order to understand online opinions?" a cargo de Carlos G. Rodríguez Penagos, de Barcelona Media.

Información obtenida a través de la lista de distribución l-red-timm.

lunes, mayo 17, 2010

Euskera añadido a la traducción web de este blog

Dado que el par español-euskera ya está disponible en GoogleT, lo he añadido a la opción de traducción web de este blog, para que podáis seguir haciendo pruebas :-)

Es curioso que el "Veamos" que inicia la descripción que se ubica bajo el título lo traduce bien. Será que aparece muchas veces en sus corpus de entrenamiento...

El traductor de Google y el euskera (I)

El viernes 14 de mayo, el sistema de traducción automática de Google activó cinco nuevos pares de lenguas en versión "alpha": armenio, azerí, georgiano, urdu y euskera.

Tal y como transmitieron en su blog, son ya 57 las lenguas con las que trabaja este sistema, y subiendo...

Así que en este post me gustaría hacer un pequeño análisis de los resultados que ofrece la traducción español-euskera de GoogleT (dejaremos el inverso y la combinación con otras lenguas para más adelante) y comparar estos resultados con los de los otros dos traductores automáticos disponibles actualmente en la red: Opentrad y el sistema del Instituto Cervantes, ambos considerados también un prototipo.

Vayamos por partes y por hitos lingüísticos. De momento, he seleccionado únicamente un par de casuísticas para no saturar el post.

Saludos, despedidas y expresiones de cortesía

Comenzaremos por un caso práctico que podría servir para iniciar o terminar un correo electrónico dirigido a un euskaldun. Para ello, he escogido tres ejemplos, en orden creciente de formalismo:

a) Hola, ¡cuánto tiempo! ¿Cómo estás?
GoogleT: Kaixo, zenbat denbora! Zer moduz zaude?
Opentrad: Kaixo, zenbat denbora ¡ !, ¿ nola egon ?
IC: Kaixo, aspaldiko! Zer moduz?
Traducción correcta: Kaixo, aspaldiko! Zer moduz (zaude)?

b) Buenos días / Buenos días María / Buenas tardes / Buenas noches (4 traducciones)
GoogleT: Egun on / Egunon María / Arratsalde on / Good night
Opentrad: Egun onak / Maria egun onak / Arratsalde onak / Gabon
IC: Egun on / Egun on María / Arratsalde on / Gabon
Traducción correcta: Egun on / Arratsalde on / Gabon

c) A la espera de tus noticias, recibe un cordial saludo
GoogleT: zure erantzuna zain, agur bero bat jaso
Opentrad: Zure erantzunaren zain, bihotzeko bat hartzen du agur egiten dut
IC: Zure erantzuna zain, jasotzen du agur bero bat
Traducción correcta: Zure erantzunaren zain, agur bero bat

Oraciones simples

A continuación, seguiremos la prueba con algunas oraciones simples (sujeto - verbo - objeto) tomadas de elcorreo.com.

a) Isidro Elezgarai será el pregonero de la Aste Nagusia
GoogleT: Isidro Elezgarai Aste Nagusia de heraldo da
Opentrad: Isidro Elezgarai Aste nagusiaren pregonaria izango da
IC: Isidro Elezgarai Aste Nagusiaren pregoilaria izango da
Traducción correcta: Isidro Elezgarai Aste Nagusiaren pregoilaria izango da

b) El presidente del Gobierno defiende las reformas anunciadas
GoogleT: Gobernuko presidenteak defendatu du erreforma iragarri du
Opentrad: Gobiernoren presidenteak erreforma iragarriak defendatzen ditu
IC: Gobernuko presidenteak zerbaiten berri emandako erreformak dfendatzen ditu
Traducción correcta: Gobernuko presidenteak iragarritako erreformak defendatu ditu

Conclusiones
Dejando de lado los resultados de Opentrad y el sistema del Instituto Cervantes (que en esta prueba ha salido bastante bien parado) veamos qué se podría deducir del funcionamiento de GoogleT en su traducción español-euskera:
  1. No ajusta bien las mayúsculas de inicio de frase cuando desparece la primera palabra de la oración original (zure erantzunaren zain...)
  2. Sufre bastante carencias en su diccionario: confusiones y falta de cohesión léxicas y gramaticales ("egun on / egunon", pregonero-heraldo, anunciadas, Aste Nagusia), y cuando no dispone de la equivalencia completa de un término en su diccionario (recordemos que GoogleT pivota siempre sobre el inglés) lo dejan en inglés, como en "Buenas noches = Good night".
  3. Sintácticamente, no se ajusta al orden "sujeto - objeto - verbo" paradigmático del euskera
  4. Por otro lado, es el único sistema que convierte correctamente (para este caso al menos) el presente histórico del español a pasado, uso muy frecuente en el lenguaje periodístico actual
  5. Y ya no he continuado con ejemplos más complejos (coordinación, subordinación, preposiciones polisémicas...) porque los resultados dejaban demasiado que desear...
En resumen, aún le queda mucho por aprender a este nuevo sistema. Veamos a qué velocidad avanza y si los corpus que utiliza para su aprendizaje le aportan la calidad de conocimiento necesaria para poder mejorar. Intentaré realizar pruebas periódicas de este sistema para que podamos dar cuenta real su evolución.

Y aunque no venga al caso, yo me sigo preguntando... ¿dónde está el traductor automático del Gobierno Vasco?

jueves, mayo 13, 2010

Análisis lingüístico y redes sociales

Hace unos días publiqué una entrada sobre el primer taller sobre aproximaciones computacionales a la subjetividad y al análisis de sentimientos (WASSA 2010).

Ahora, vía Buscarama leo una noticia sobre las aplicaciones prácticas de este tipo de aproximaciones: informes sobre la opinión de los votantes del Reino Unido sobre sus candidatos a Primer Ministro creados a partir de los comentarios "twitteados" durante el primer debate de la campaña.

Un ejemplo precioso de cómo la interacción entre análisis lingüístico (especialmente semántico) y redes sociales puede ofrecer resultados de interés general.

Para más información, podéis leer el post de Buscarama: Brown, Cameron, Clegg y Twitter.

Los guiones parentéticos

Los guiones parentéticos son aquellos que, en lenguas como el castellano, se utilizan para introducir incisos en el discurso simulando los paréntesis.

En las II Jornades d'Edició Digital Independent se mencionaron estos guiones porque el formato ePub, formato estándar para la publicación de libros electrónicos, aún no consigue tratarlos bien.

Me resultó curioso el comentario, que provino de José Antonio Millán, porque durante mi colaboración en el desarrollo de traductores automáticos en la empresa AutomaticTrans de Barcelona éste era uno de los aspectos más conflictivos para el sistema de traducción dentro del tratamiento de los signos de puntuación.

Así pues, tanto para la tecnología como para los humanos, la lengua se nos revela compleja en todos sus niveles, desde el ortotipográfico hasta el semántico y pragmático, y está claro que sus problemáticas lo son en cualquier ámbito, desde la "simple" edición hasta la traducción.

¡Pero qué bonita que es la lengua!

martes, mayo 11, 2010

Crónica de las "II Jornades d'Edició Digital Independent"

Hoy, 11 de mayo de 2010, he tenido la suerte de poder asistir a las II Jornades d'Edició digital independent en el Institut d'Estudis Catalans. Aquí va un pequeño resumen de las ideas transmitidas.

En primer lugar, José Antonio Millán, autor del blog Libros y bitios (enlazado también como referencia de lectura en este blog) ha presentado un completo "ecosistema del libro digital", realizando un recorrido muy interesante por conceptos sociológicos, tecnológicos y de mercado relacionados con la edición digital.

Los materiales de su presentación recogen interesantes datos en torno al reto que supone este nuevo modelo de edición, desde el aluvión actual de publicaciones hasta los nuevos modelos de lectores, intermediarios, soportes e, incluso, autores. Diversidad y coexistencia de modelos como ideas de base.

En el momento de preguntas y respuestas, y aprovechando el carácter introductorio de la conferencia, varios asistentes se han lanzado con comentarios e inquietudes en torno a aspectos como la piratería, las licencias de los programas de uso privativo o los complejos de los editores para hacer uso de los nuevos recursos tecnológicos. Todo ello ha servido para completar aún más el primer momento de la mañana.

Tras esta intervención, la editora del blog Beat.cat, Iolanda Bethencourt, ha expuesto un concienzudo repertorio de datos sobre conceptos, formatos, aspectos técnicos, plataformas distribuidoras e incluso aspectos legales de los e-books/e-readers.

Ya tras el café tardío, Arantxa Mellado, directora de la red social Ediciona nos ha dejado más que patente la apabullante realidad de la web 2.0, y se ha centrado en modelos de uso de las redes sociales como estrategias de marketing en el ámbito de la edición, con decenas de casos de éxito a modo de ejemplo. Sus mensajes y consejos, claros y directos:
  • Seducir e implicar a los lectores
  • Implicar a los autores
  • Aprovechar la viralidad de la web 2.0
  • Utilizar y experimentar con los nuevos medios hasta encontrar el más efectivo para cada caso

Para cerrar la jornada, la profesora de la UB Laura Borràs nos ha deleitado -acompañada por su iPad y su Papyre 6.S Alex- con la conferencia "Llegir (en) el futur: e-books i canvis en l'escriptura, la lectura i el futur de l'edició". Un arrollador discurso compuesto por un vínculo constante de conceptos humanísticos y tecnológicos relacionados con la "innovación" (que no siempre es innovación, según ella) en escritura, lectura y edición. Una sabrosa disertación para cerrar la jornada con el mejor sabor de boca.

Una mañana realmente completa.