A medida que la pandemia finalmente termina, los viajes internacionales aumentan, con millones que buscan recuperar el tiempo perdido. A medida que los viajeros exploran tierras extranjeras, herramientas como el sistema de traducción automática neuronal de Google pueden ser útiles; lanzado en 2016, el software utiliza el aprendizaje profundo para dibujar vínculos entre palabras, determinando qué tan estrechamente relacionadas están, qué probabilidad hay de que aparezcan juntas en una oración y en qué orden.
La herramienta de Google funciona bien: cuando se comparó el software con traductores humanos, estuvo cerca de igualar la fluidez de los humanos en algunos idiomas, pero está limitada a los idiomas más hablados del mundo.
Meta quiere ayudar y está invirtiendo recursos en su propia herramienta de traducción, con el objetivo (entre otros) de hacerla mucho más expansiva que la de Google. Un documento que la compañía publicó esta semana dice que la herramienta de Meta funciona en más de 40,000 direcciones de traducción diferentes entre 200 idiomas diferentes. Una “dirección de traducción” se refiere a traducciones entre pares de idiomas, por ejemplo:
Dirección 1: Inglés > Español
Dirección 2: Español > Inglés
Dirección 3: Español > Suajili
Dirección 4: Suajili > Inglés
40.000 suena como mucho, pero si tomas todas las permutaciones de 200 idiomas que se traducen entre sí, se suman bastante rápido. Es difícil determinar con precisión cuántos idiomas hay en el mundo, pero una estimación confiable sitúa el total en más de 6900. Si bien sería inexacto decir que Meta está construyendo un sistema de traducción universal, es uno de los trabajos más extensos que se haya realizado en el campo, particularmente con lo que la compañía llama lenguajes de bajos recursos.
Estos se definen como idiomas con menos de un millón de pares de oraciones traducidas disponibles públicamente. Se componen en gran parte de idiomas africanos e indios que no son hablados por una gran población y no tienen tanta historia escrita como los idiomas comunes.
"Un fenómeno realmente interesante es que las personas que hablan idiomas de bajos recursos a menudo tienen una barra más baja para la calidad de la traducción porque no tienen ninguna otra herramienta", dijo a The Verge la científica investigadora de Meta AI, Angela Fan, que trabajó en el proyecto . "Tenemos esta motivación de inclusión de '¿qué se necesitaría para producir una tecnología de traducción que funcione para todos'?"
Meta comenzó su investigación entrevistando a hablantes nativos de idiomas de bajos recursos para contextualizar su necesidad de traducción, aunque el equipo señala que la mayoría de los entrevistados eran "inmigrantes que vivían en los EE. UU. y Europa, y alrededor de un tercio de ellos se identifican como trabajadores tecnológicos". ”, lo que significa que puede haber algún sesgo incorporado y una experiencia de vida de referencia diferente a la del grupo más amplio de personas que hablan sus idiomas.
Luego, el equipo creó modelos destinados a reducir la brecha entre los idiomas de bajos y altos recursos. Para medir el rendimiento del modelo una vez que comenzó a generar traducciones, el equipo reunió un conjunto de datos de prueba de 3001 pares de oraciones para cada idioma cubierto por el modelo. Las oraciones fueron traducidas del inglés a los idiomas de destino por hablantes nativos de esos idiomas que también son traductores profesionales.
Los investigadores alimentaron las oraciones a través de su herramienta de traducción y compararon su resultado con las traducciones humanas utilizando una metodología llamada Suplente de evaluación bilingüe, o BLEU para abreviar. BLEU es el punto de referencia estándar que se utiliza para evaluar las traducciones automáticas y proporciona un sistema de puntuación numérica que mide la precisión de los pares de oraciones. Los investigadores de Meta dijeron que su modelo vio una mejora del 44 por ciento en los puntajes BLEU en comparación con las herramientas de traducción automática existentes.
Sin embargo, esa cifra debe tomarse con un grano de sal. El lenguaje puede ser muy subjetivo, y una oración podría adquirir un significado completamente diferente en función de la diferencia de una sola palabra; o conservar exactamente el mismo significado a pesar del cambio de varias palabras. Los datos con los que se entrena un modelo marcan la diferencia, e incluso eso está sujeto a sesgos incorporados y a las complejidades del lenguaje en cuestión.
Un aspecto diferenciador adicional de la herramienta de Meta es que la empresa optó por abrir su trabajo (incluido el modelo, el conjunto de datos de evaluación y el código de capacitación) en un intento por democratizar el proyecto y convertirlo en un esfuerzo de la comunidad global.
“Trabajamos con lingüistas, sociólogos y especialistas en ética”, dijo Fan. “Y creo que este tipo de enfoque interdisciplinario se enfoca en el problema humano . ¿Quién quiere que se construya esta tecnología? ¿Cómo quieren que se construya? ¿Cómo van a usarlo?”.
Si bien traerá beneficios a la amplia base de usuarios de la empresa, la herramienta de traducción no es de ninguna manera un proyecto caritativo; Meta puede ganar mucho al poder comprender mejor a sus usuarios y la forma en que se comunican y usan el lenguaje (después de todo, los anuncios dirigidos vienen en todos los idiomas). Sin mencionar que hacer que las plataformas de la compañía estén disponibles en nuevos idiomas abrirá bases de usuarios aún sin explotar (si es que queda alguna).
Como muchas empresas de Big Tech, el traductor de Meta no debe ser desdeñado como un instrumento de poder corporativo ni alabado como un regalo para las masas; ayudará a unir a las personas y facilitará la comunicación, incluso mientras brinda al gigante de las redes sociales nuevos conocimientos sobre nuestras vidas y mentes.
Fuente
singularityhub.com
Comentários