La escala vertiginosa de la IA ha sido difícil de pasar por alto en los últimos años. Los algoritmos más avanzados ahora tienen cientos de miles de millones de conexiones, y se necesitan millones de dólares y una super computadora para entrenarlos. Pero a pesar de lo llamativo que es la gran IA, el progreso no se trata solo de escala: el trabajo en el extremo opuesto del espectro es igual de crucial para el futuro del campo.
Algunos investigadores están tratando de hacer que la IA sea más rápida, más eficiente y más accesible, y un área madura para mejorar es el proceso de aprendizaje en sí. Debido a que los modelos de IA y los conjuntos de datos de los que se alimentan han crecido exponencialmente, los modelos avanzados pueden tardar días o semanas en entrenarse, incluso en super computadoras.
¿Podría haber una mejor manera? Quizás.
Un nuevo artículo publicado en el servidor de preimpresión arXiv describe cómo un tipo de algoritmo llamado "hiperred" podría hacer que el proceso de capacitación sea mucho más eficiente. La hiperred del estudio aprendió las conexiones internas (o parámetros) de un millón de algoritmos de ejemplo para poder preconfigurar los parámetros de nuevos algoritmos no entrenados.
La IA, llamada GHN-2, puede predecir y establecer los parámetros de una red neuronal no entrenada en una fracción de segundos. Y en la mayoría de los casos, los algoritmos que usaban los parámetros de GHN-2 se desempeñaron tan bien como los algoritmos que habían pasado por miles de rondas de entrenamiento.
Hay margen de mejora, y los algoritmos desarrollados con el método aún necesitan capacitación adicional para lograr resultados de vanguardia. Pero el enfoque podría tener un impacto positivo en el campo si reduce la energía, el poder de cómputo y el efectivo necesarios para construir IA.
Automatización de la IA
Aunque el aprendizaje automático está parcialmente automatizado, es decir, nadie le dice a un algoritmo de aprendizaje automático exactamente cómo realizar su tarea, en realidad construir los algoritmos es mucho más práctico. Se necesita mucha habilidad y experiencia para modificar y ajustar la configuración interna de una red neuronal para que pueda aprender una tarea a un nivel lo suficientemente alto como para ser útil.
"Es casi como ser el entrenador en lugar del jugador", dijo Demis Hassabis, cofundador de DeepMind, a Wired en 2016. "Estás persuadiendo a estas cosas, en lugar de decirles directamente qué hacer".
Para reducir el aumento, los investigadores han estado desarrollando herramientas para automatizar pasos clave en este proceso, como por ejemplo, encontrar la arquitectura ideal para un nuevo algoritmo. La arquitectura de una red neuronal es el material de alto nivel, como la cantidad de capas de neuronas artificiales y cómo se vinculan esas capas. Encontrar la mejor arquitectura requiere una buena cantidad de prueba y error, y automatizarla puede ahorrar tiempo a los ingenieros.
Entonces, en 2018, un equipo de investigadores de Google Brain y la Universidad de Toronto crearon un algoritmo llamado hiperred gráfica para hacer el trabajo. Por supuesto, en realidad no podían entrenar un montón de arquitecturas candidatas y enfrentarlas entre sí para ver cuál saldría ganando. El conjunto de posibilidades es enorme, y entrenarlos uno por uno se les iría de las manos rápidamente. En su lugar, utilizaron la hiperred para predecir los parámetros de las arquitecturas candidatas, ejecutarlas en una tarea y luego clasificarlas para ver cuál funcionaba mejor.
La nueva investigación se basa en esta idea. Pero en lugar de utilizar una hiperred para clasificar las arquitecturas, el equipo se centró en la predicción de parámetros. Al construir una hiperred que sea experta en predecir los valores de los parámetros, pensaron, tal vez podrían aplicarla a cualquier algoritmo nuevo. Y en lugar de comenzar con un conjunto aleatorio de valores, que es como suele comenzar el entrenamiento, podrían dar a los algoritmos una gran ventaja en el entrenamiento.
Para crear un selector de parámetros de IA útil, necesita un buen conjunto de datos de entrenamiento profundo. Entonces, el equipo hizo una, una selección de un millón de arquitecturas algorítmicas posibles, para entrenar GHN-2. Debido a que el conjunto de datos es tan grande y diverso, el equipo descubrió que GHN-2 puede generalizarse bien a arquitecturas que nunca antes había visto. “Pueden, por ejemplo, dar cuenta de todas las arquitecturas típicas de última generación que usa la gente”, dijo recientemente a Quanta Thomas Kipf, científico investigador del Brain Team de Google Research en Ámsterdam. “Esa es una gran contribución”.
Después del entrenamiento, el equipo puso a prueba el GHN-2 y comparó los algoritmos usando sus predicciones con los algoritmos entrenados tradicionalmente.
Los resultados fueron impresionantes.
Tradicionalmente, los algoritmos usan un proceso llamado descenso de gradiente estocástico (SGD) para ajustar gradualmente las conexiones de una red neuronal. Cada vez que el algoritmo realiza una tarea, la salida real se compara con la salida deseada (¿es esta la imagen de un gato o un perro?) y se ajustan los parámetros de la red. A lo largo de miles o millones de iteraciones, el entrenamiento empuja un algoritmo hacia un estado óptimo en el que se minimizan los errores.
Los algoritmos que utilizan las predicciones de GHN-2, es decir, sin entrenamiento alguno, igualan la precisión de los algoritmos que fueron entrenados con SGD durante miles de iteraciones. Sin embargo, de manera crucial, GHN-2 tardó menos de un segundo en predecir los parámetros de un modelo, mientras que los algoritmos entrenados tradicionalmente tardaron unos 10,000 veces más para alcanzar el mismo nivel.
Para ser claros, el desempeño que logró el equipo aún no es de vanguardia. La mayoría de los algoritmos de aprendizaje automático se entrenan mucho más intensamente con estándares más altos. Pero incluso si un algoritmo como GHN-2 no acierta en sus predicciones, un resultado probable, comenzar con un conjunto de parámetros que es, digamos, el 60 por ciento del camino es mucho mejor que comenzar con un conjunto de parámetros aleatorios. . Los algoritmos necesitarían menos ciclos de aprendizaje para alcanzar su estado óptimo.
“Los resultados son definitivamente súper impresionantes”, dijo a Quanta Peter Veličković de DeepMind. “Básicamente redujeron significativamente los costos de energía”.
A medida que los modelos de miles de millones de parámetros dan paso a modelos de billones de parámetros, es refrescante ver a los investigadores crear soluciones elegantes para complementar la fuerza bruta. La eficiencia, al parecer, bien puede ser valorada tanto como la escala en los años venideros.
Fuente: https://singularityhub.com
Comments