La nueva IA de NVIDIA transforma fotos en escenas 3D completas en segundos
Hubo un tiempo en el que convertir una fotografía vieja a una imagen digital impresionaba a las personas. En la actualidad podemos hacer un poco más, como traer fotos vintage a la vida como Harry Potter. El creador de chips NVIDIA realizó otro truco de magia.
Basándose en trabajo anterior, investigadores de NVIDIA mostraron cómo una pequeña red neuronal entrenada con unas pocas docenas de imágenes puede renderizar la escena mostrada en 3D. Como demostración, el equipo transformó imágenes de una modelo sosteniendo una cámara Polaroid -una oda a Andy Warhol- a una escena 3D.
Este trabajo sobresale por unas cuántas razones.
En primera, es muy rápida. Los primeros modelos de IA tardaban horas en ser entrenadas y más de 30 minutos para renderizar escenas 3D. La red neuronal de NVIDIA no toma más de unos cuántos minutos para entrenarse y renderiza la escena en decenas de milisegundos. En segunda, la AI es diminuta en comparación con los pesados modelos de lenguaje actuales. Modelos grandes como GPT-3 se entrenan en cientos o miles de unidades de proceso gráfico (GPU, Graphical Process Unit). La IA de renderizado de NVIDIA se ejecuta en un solo GPU.
El trabajo se basa en campos de brillo neuronal (NeRFs, Neural Radiance Fields), una técnica desarrollada por investigadores de UC Berkeley, UC San Diego, y Google Research, un par de años atrás. En resumen, un NeRF toma un juego de datos limitado -digamos 36 fotografías de un sujeto tomadas desde una variedad de ángulos- y entonces predice el color, intensidad, y dirección de la luz radiando de cualquier punto en la escena. Es decir, la red neuronal, llena los vacíos entre imágenes con su mejores conjeturas basadas en los datos de entrenamiento. El resultado es un espacio 3D contínuo cosido a partir de las imágenes originales.
La constribución reciente de NVIDIA, descrita en un artículo, pone a los NeRFs en drogas de mejora de rendimiento. De acuerdo al artículo, el nuevo método, apodado Instant NeRF, explota un acercamiento conocido como cifrado de rejilla de hash de resolución múltiple para simplificar la arquitectura del algoritmo y ejecutarlo en paralelo en un GPU. Este rendimiento mejorado por unas cuántas órdenes de magnitud -su algoritmo corre hasta 1,000 veces más rápido, de acuerdo a una publicación del blog de NVIDIA- sin sacrificar calidad.
NVIDIA imagina que la tecnología podría encontrar su propio camino hacia robots y autos autónomos, ayudándolos a visualizar mejor y entender el mundo a su alrededor. También podría usarse para hacer avatares de alta fidelidad que las personas podría importar a mundos virtuales para replicar escenas reales del mundo en el mundo digital donde los diseñadores pueden modificarlos y construir sobre ellos.
La velocidad y tamaño de las redes neuronales importan en estos casos, ya que algoritmos enormes requieren cantidades prodigiosas de poder computacional no pueden ser usados por la mayoría de las personas, ni son prácticas para robots y autos sin conexiones a la nube confiables y veloces.
La demostración fue parte de la conferencia de desarrollo de NVIDIA. Otros puntos destacados incluyen un sistema para autos autónomos que buscan mapear 300,000 millas de caminos en centímetros para 2024 y una supercomputadora de IA que la compañía asevera será la más rápida del mundo en su lanzamiento (una afirmación hecha también por Meta recientemente).
Todo esto concuerda exactamente en una narrativa más grande. El mundo digital está mezclándose con el mundo real y viceversa. Y no solo libros, música, fotos, documentos y pagos, sino personas, lugares, e infraestructura. Dada la excelencia los chips de NVIDIA en IA y gráficos, la compañía está bien posicionada para tener una mano metida en todo. Por supuesto, no se quedaron satisfechos con crear replicas digitales de escenas individuales, la compañía ha dicho que también está construyendo un doble digital de la tierra.
Es verdad que está volviéndose cada vez más difícil dibujar la línea entre marketing y presentaciones de ventas y desarrollos serios. No es raro ver mezclas de las palabras de tecnología vanguardistas -NFTs, metaverso, IA, blockchain- en un solo títular. Pero mientras que la visión parece estar avanzando mas rápido que la capacidad, hay bastantes indicios de que llegaremos ahí tarde o temprano.
Una IA miniatura que puede convertir una pila de polaroids en una escena 3D es solo uno de ellos.
Fuentes
singularityhub.com
Comments