Ya sea que inicies sesión desde EE. UU, Brasil, Borneo o Francia, Facebook puede traducir prácticamente cualquier contenido escrito publicado en su plataforma al idioma local mediante la traducción automática. De hecho, Facebook proporciona alrededor de 20 mil millones de traducciones todos los días solo para su News Feed. Sin embargo, estos sistemas suelen utilizar el inglés como paso intermedio, es decir, la traducción del chino al francés en realidad pasa del chino al inglés al francés. Esto se hace porque los conjuntos de datos de traducciones hacia y desde el inglés son masivos y están ampliamente disponibles, pero poner el inglés en el medio reduce la precisión general de la traducción al tiempo que hace que todo el proceso sea más complejo y engorroso de lo necesario. Es por eso que Facebook AI ha desarrollado un nuevo modelo de traducción automática que puede traducir bidireccionalmente directamente entre dos idiomas (chino al francés y del francés al chino) sin usar el inglés como muleta, y que supera el modelo centrado en inglés en 10 puntos en las métricas BLEU.

“El mayor desafío es realmente, cómo tomamos los sistemas de traducción que tenemos y luego realmente satisfacer la demanda de personas de todo el mundo, dijo a TechQ Angela Fan, investigadora asociada de Facebook AI. “Así que estás traduciendo a todos los idiomas y en todas las direcciones que la gente realmente quiere. Por ejemplo, hay muchas regiones en el mundo donde las personas hablan varios idiomas, ninguno de los cuales es inglés, pero los sistemas de traducción existentes dependen en gran medida de datos que solo se encuentran en inglés «. De los miles de millones de publicaciones que se publican diariamente en 160 idiomas en la plataforma de Facebook, dos tercios están en un idioma que no es el inglés, señaló.

Apodado M2M-100, Facebook afirma que es el primer modelo de traducción automática multilingüe (MMT) que puede traducir directamente entre cualquier par de un conjunto de 100 idiomas. En total, FBAI ha construido un enorme conjunto de datos que consta de 7.500 millones de oraciones para 100 idiomas. Con eso, el equipo de investigación entrenó un modelo de traducción universal con más de 15 mil millones de parámetros «que captura información de idiomas relacionados y refleja un guión más diverso de idiomas y morfología», según una publicación del blog de Facebook el lunes.

Leer también  Golpear los libros: lecciones aprendidas de los juegos con el rey de Suecia

Para hacer esto, Facebook tuvo que recopilar una gran cantidad de datos disponibles públicamente de todo el mundo utilizando una variedad de técnicas novedosas. «Mucho de esto realmente se basa en el trabajo que hemos realizado durante muchos años en la investigación en Facebook, que son como todas las diferentes piezas de Lego que juntamos para construir el sistema hoy», explicó Fan. 

Para empezar, el equipo empleó CommonCrawl, que mantiene un repositorio abierto de datos de rastreo web, para recopilar ejemplos de texto de toda la web. Luego se dispusieron a identificar el idioma en el que se encuentra el texto usando FastText, un sistema de clasificación de texto que Facebook desarrolló y abrió hace unos años. “Básicamente, analiza algunas pruebas e intenta decidir en qué idioma está escrito”, dijo Fan. «Así que dividimos un montón de textos de la web en todos estos idiomas diferentes y luego nuestro objetivo es identificar oraciones que se traducirían».

“Tradicionalmente, la gente usa traductores humanos para crear datos de traducción”, continuó. «Esto es difícil a gran escala porque es difícil, por ejemplo, encontrar a alguien que hable inglés y tamil, pero es aún más difícil encontrar a alguien que hable francés y tamil juntos, porque la traducción que no sea en inglés es todavía un área que necesita mejorar».

Para extraer esos datos necesarios a escala, el equipo de Fan se basó en gran medida en el sistema LASER. “Lee oraciones, toma el texto y crea una representación matemática de ese texto, de modo que las oraciones que tienen el mismo significado se asignan al mismo pensamiento”, dijo. «Entonces, si tengo una oración en chino y francés, y ellos dicen lo mismo, se superpondrán, como un diagrama de Venn, el área superpuesta es el tipo de texto que creemos que son oraciones alineadas».

Por supuesto, no todos los idiomas tienen una gran cantidad de contenido escrito disponible en Internet. En esas situaciones, el equipo de Fan recurrió a datos monolingües, que son solo datos escritos en un solo idioma. Utilizando el ejemplo del chino al francés, Fan explicó: «Entonces, si mi objetivo es traducir del chino al francés, pero por alguna razón no obtengo una buena calidad, intentaré mejorar esto tomando datos monolingües de los textos en francés. Y lo que hago es entrenar un reverso del sistema: voy del francés al chino. Tomo todo mi francés, por ejemplo, de Wikipedia y lo traduzco al chino «. 

Leer también  Samsung y Stanford hacen una pantalla de 10,000PPI que podría conducir a una realidad virtual 'impecable'

Hacerlo produce una gran cantidad de datos “sintéticos” generados por una máquina, continuó Fan. “Así que he creado este chino sintético basado en mi francés traducido hacia atrás, luego lo voy a agregar nuevamente al modelo avanzado. Entonces, en lugar de pasar del chino al francés, tengo chino más mi chino sintético complementado, todo yendo al francés. Y debido a que esto agrega un montón de nuevos ejemplos, tanto en el lado de entrada como en el de salida, el modelo será mucho más sólido «.

Queda por ver si esto conducirá a un Babel Fish digital capaz de traducir sin pérdidas entre los 6.200 idiomas hablados del mundo. Fan señala que el éxito final de este proyecto depende de la cantidad de recursos que la IA pueda aprovechar. Para los principales idiomas como francés, chino, alemán, español e hindi, esos recursos son vastos. «La gente escribe toneladas de texto en la web en estos idiomas», señaló Fan. «Realmente pudieron ayudar a una gran cantidad de datos, y nuestros modelos pueden usar estos datos para mejorar». 

«Yo personalmente identifico muchas áreas en las que podríamos necesitar mejoras para los idiomas de muy bajo recurso», continuó. «Para los idiomas africanos, somos bastante buenos en swahili y afrikáans, podríamos mejorar mucho en idiomas como el zulú, y estos idiomas tienen desafíos de investigación adicionales que debemos enfrentar».

Facebook está lanzando el conjunto de datos, el modelo, la capacitación y las configuraciones de evaluación como código abierto para la comunidad de investigación para ayudar a impulsar nuevos avances. La compañía también planea continuar desarrollando el sistema de forma independiente y eventualmente incorporar la tecnología en sus operaciones diarias.