Arquitectura general del modelo de inteligencia artificial LRM
Arquitectura general del modelo de inteligencia artificial LRM, un marco codificador-decodificador basado en transformador totalmente diferenciable para la reconstrucción de una sola imagen a NeRF. LRM aplica un modelo de visión previamente entrenado (DINO) para codificar la imagen de entrada (Sec. 3.1), donde las características de la imagen se proyectan en una representación triplana 3D mediante un decodificador transformador grande mediante atención cruzada (Sec. 3.2), seguido de un perceptrón multicapa para predecir el color y la densidad del punto para la representación volumétrica (Sección 3.3). Toda la red está entrenada de extremo a extremo con alrededor de un millón de datos 3D (Sección 4.1) con pérdidas simples de reconstrucción de imágenes (Sección 3.4). Crédito: arXiv (2023). DOI: 10.48550/arxiv.2311.04400

En el emergente y rápido mundo de la informática a gran escala, era solo cuestión de tiempo antes de que un logro revolucionario estuviera a punto de poner patas arriba el campo de las visualizaciones 3D. Adobe Research y la Universidad Nacional de Australia (ANU) han anunciado el primer modelo de inteligencia artificial capaz de generar imágenes 3D a partir de una única imagen 2D.

En un desarrollo que transformará la creación de modelos 3D, los investigadores aseguran que su nuevo algoritmo, que se entrena con muestras masivas de imágenes, puede generar dichas imágenes 3D en cuestión de segundos.

Una inteligencia artificial con una red neuronal altamente escalable

Yicong Hong, pasante de Adobe y exestudiante de posgrado de la Facultad de Ingeniería, Computación y Cibernética de la ANU, comenta que su gran modelo de reconstrucción (LRM) se basa en una red neuronal altamente escalable que contiene un millón de conjuntos de datos con 500 millones de parámetros. Dichos conjuntos de datos incluyen imágenes, formas 3D y vídeos.

«Esta combinación de un modelo de alta capacidad y datos de entrenamiento a gran escala permite que nuestro modelo de inteligencia artificial sea altamente generalizable y produzca reconstrucciones 3D de alta calidad a partir de diversas entradas de prueba«, indica Hong, autor principal de un informe sobre el proyecto.

«Hasta donde sabemos, [nuestro] LRM es el primer modelo de reconstrucción 3D a gran escala«, insiste Hong.

Una tecnología con un amplio abanico de aplicaciones

Se puede esperar que los sistemas de realidad aumentada y virtual, los juegos, la animación cinematográfica y el diseño industrial aprovechen esta tecnología transformadora de inteligencia artificial.

Los primeros programas de imágenes 3D funcionaron bien solo en categorías de temas específicos con formas preestablecidas. Hong explica que los avances posteriores en la generación de imágenes se lograron con programas como DALL-E y Stable Diffusion, que «aprovecharon la notable capacidad de generalización de los modelos de difusión 2D para permitir vistas múltiples«. Sin embargo, los resultados con esos programas se limitaron a modelos generativos 2D previamente entrenados.

Otros sistemas utilizaron optimización por forma para lograr resultados impresionantes, pero «a menudo son lentos y poco prácticos«, según Hong.

Solo cinco segundos de respuesta

Hong comenta que la evolución de los modelos de lenguaje natural dentro de redes de transformadores masivas que utilizaban datos a gran escala para maximizar las tareas de predicción de la siguiente palabra animó a su equipo a plantearse la pregunta: «¿Es posible aprender un 3D genérico previo para reconstruir un objeto a partir de ¿una sola imagen?» Su respuesta fue ««.

«LRM puede reconstruir formas 3D de alta fidelidad a partir de una amplia gama de imágenes capturadas en el mundo real, así como imágenes creadas por modelos generativos«, afirma Hong. «LRM también es una solución muy práctica para aplicaciones posteriores, ya que puede producir una forma 3D en sólo cinco segundos sin optimización posterior«.

Una base de datos de millones de parámetros de imágenes

El éxito de este modelo de inteligencia artificial radica en su capacidad para aprovechar su base de datos de millones de parámetros de imágenes y predecir un campo de radiación neuronal (NeRF). Esa es la capacidad de generar imágenes 3D de apariencia realista basadas únicamente en imágenes 2D, incluso si esas imágenes son de baja resolución. NeRF tiene capacidades de síntesis de imágenes, detección de objetos y segmentación de imágenes.

Hace 60 años se creó el primer programa informático que permitía a los usuarios generar y manipular formas 3D simples. Sketchpad, diseñado por Ivan Sutherland como parte de su tesis de doctorado en el MIT, con un total de 64K de memoria. A lo largo de las décadas, los programas 3D crecieron a pasos agigantados con programas como AutoCAD, 3D Studio, SoftImage 3D, RenderMan y Maya.

El artículo de Hong, «LRM: Large Reconstruction Model for Single Image to 3D«, se subió al servidor de preimpresión arXiv el 8 de noviembre.

Alejandro Serrano
Cofundador de Fantasymundo, director de las secciones de Libros y Ciencia. Lector incansable de ficción y ensayo, escribo con afán divulgador sobre temáticas relacionadas con el entretenimiento y la cultura cercanas a mis intereses.

DEJA UNA RESPUESTA

Por favor ingrese su comentario!
Por favor ingrese su nombre aquí

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.