A medida que los modelos de IA se vuelven cada vez más grandes, la cantidad de dinero y energía necesaria para entrenarlos se ha convertido en un tema candente. Un nuevo enfoque que reescriba uno de los pilares fundamentales de la disciplina podría proporcionar una posible solución.
Desde que GPT-3 demostró los saltos significativos en el rendimiento que se pueden lograr simplemente aumentando el tamaño del modelo, los líderes en la industria de la IA han estado acumulando recursos para entrenar redes neuronales cada vez más masivas.
Pero esto cuesta enormes cantidades de dinero, requiere recursos informáticos masivos y utiliza enormes cantidades de energía. Eso se ve cada vez más como un problema, no solo por las implicaciones ambientales, sino también porque dificulta la competencia de equipos de IA más pequeños y, como resultado, concentra el poder en manos de los líderes de la industria.
Ahora, sin embargo, los investigadores de la Universidad de Oxford han esbozado un nuevo enfoque que podría reducir los tiempos de entrenamiento a la mitad. Lo hacen reescribiendo uno de los ingredientes más fundamentales en los sistemas de IA basados en redes neuronales actuales: la retropropagación.
La forma en que una red neuronal procesa los datos se rige por la fuerza de las conexiones entre sus diversas neuronas. Entonces, para que hagan un trabajo útil, primero debe ajustar estas conexiones hasta que procesen los datos de la manera que desea. Para ello, entrene a la red en datos relevantes para el problema mediante un proceso llamado retropropagación, que se divide en dos fases.
La ejecución hacia adelante implica alimentar datos a través de la red y hacer que hagan predicciones. En el paso hacia atrás, las mediciones de la precisión de estas predicciones se utilizan para retroceder a través de la red y determinar cómo se debe ajustar la fuerza de varias conexiones para mejorar el rendimiento. Al repetir este proceso muchas veces usando muchos datos, la red trabaja gradualmente hacia una configuración óptima de conexiones que resuelve el problema en cuestión.
Este proceso repetitivo es la razón por la que lleva tanto tiempo entrenar a la IA, pero es posible que los investigadores de Oxford hayan encontrado una manera de simplificar las cosas. En una preimpresión publicada en arXiv , describen un nuevo enfoque de entrenamiento que elimina por completo el pase hacia atrás . En cambio, su algoritmo hace estimaciones de cómo se deberán modificar los pesos en el pase hacia adelante, y resulta que estas aproximaciones son lo suficientemente cercanas para lograr un rendimiento comparable al de la propagación hacia atrás.
Los investigadores demostraron que el enfoque se puede usar para entrenar una variedad de diferentes algoritmos de aprendizaje automático, pero debido a que solo implica un pase hacia adelante, pudo reducir los tiempos de entrenamiento hasta a la mitad.
Es un simple truco matemático, dijo Andrew Corbett de la Universidad de Exeter en el Reino Unido a New Scientist , pero podría ayudar a abordar uno de los desafíos más apremiantes que enfrenta la IA en la actualidad. “Es algo muy, muy importante de resolver, porque es el cuello de botella de los algoritmos de aprendizaje automático”, dijo.
Sin embargo, queda por ver cuán ampliamente aplicable es el enfoque. En su artículo, los investigadores muestran que la diferencia en los costos de tiempo de ejecución se reduce a medida que aumenta la cantidad de capas en una red neuronal, lo que sugiere que la técnica puede tener rendimientos decrecientes con modelos más grandes.
Sin embargo, los investigadores también señalan que han identificado una serie de oportunidades para modificar la forma en que funcionan los algoritmos de aprendizaje automático estándar para que se adapten mejor a su método, lo que podría conducir a mayores ganancias de rendimiento.
La investigación también podría contribuir potencialmente a un misterio en curso en la inteligencia humana. Las redes neuronales artificiales siguen siendo una de nuestras mejores herramientas para investigar cómo aprende el cerebro, pero se sabe desde hace tiempo que la retropropagación no es biológicamente plausible debido a la falta de conectividad hacia atrás entre las neuronas. Un enfoque de aprendizaje que solo requiere un pase hacia adelante puede ayudar a arrojar luz sobre cómo nuestro cerebro resuelve el problema de aprendizaje.
Fuentes
singularityhub.com
Comments