Meta, la compañía de Mark Zuckerberg, acaba de lanzar una nueva herramienta de Inteligencia Artificial. SceneScript es el último proyecto de la compañía luego de haber incluido esta tecnología a las Meta Quest 3. A pesar de no tener un chatbot de la magnitud de Bing, Gemini o ChatGPT, la empresa se mantiene dentro de la carrera por la IA que lidera ampliamente OpenAI.
En este sentido, SceneScript es un modelo de Inteligencia Artificial que está muy relacionado a sus gafas virtuales. Su principal cometido es permitir generar diseños de escenas en tres dimensiones (3D) para que los dispositivos de realidad aumentada (RA), como lo son las Quest 3, logren entender la geometría de los espacios físicos en los que se hallan.
Cómo funciona SceneScript
En su blog oficial, al introducir su flamante aplicación, Meta sugirió pensarlo de la siguiente manera: “Imagina un par de lentes elegantes y livianos que combinen inteligencia artificial contextualizada con una pantalla que te brinde acceso fluido a información en tiempo real cuando la necesites y te ayude proactivamente en tu día a día”.
En el texto, Meta aseguró que lo mejor que pueden lograr es que el visor que tienen las gafas logren combinar Inteligencia Artificial Contextualizada con una pantalla que le permita a los usuarios tener acceso a información en tiempo real cada vez que así lo requieran. Pero para que esto suceda, todos los dispositivos de RA tienen que saber qué es lo que los rodea.
“Para que este tipo de lentes de realidad aumentada (RA) se conviertan en realidad, el sistema debe ser capaz de comprender la disposición de tu entorno físico y cómo el mundo está formado en 3D”, explicaron desde la entidad liderada por Mark Zuckerberg en su página oficial sobre un aspecto esencial del funcionamiento de SceneScript.
De esta manera, una vez que logre entender estos dos aspectos esenciales, las Meta Quest 3 serán capaces de adaptar, de acuerdo a las palabras de la institución, “el contenido a ti y a tu contexto individual, como fusionar sin problemas una superposición digital con tu espacio físico o darte instrucciones paso a paso para ayudarte a navegar por lugares desconocidos”.
Cuál es el problema de las tecnologías antecesoras a SceneScript
Cabe destacar que la reconstrucción de las escenas que están representando los dispositivos de realidad aumentada es una tarea compleja y que demanda procesos bastante difíciles. Meta Quest 3, por su parte, al tratarse de un objeto de realidad mixta, realiza una representación virtual de los espacios físicos a partir de lo que observan sus cámaras o sus sensores 3D.
Pero lo ocurre con este tipo de tecnologías no se traslada de forma directa a un RA. Así lo describen en el sitio web: “Estos datos brutos se convierten en una serie de formas que describen características distintivas del entorno, como paredes, techos y puertas. Usualmente, estos sistemas se basan en reglas predefinidas para convertir los datos brutos en formas”.
“Sin embargo, este enfoque heurístico a menudo puede conducir a errores, especialmente en espacios con geometrías únicas o irregulares”, añadieron acerca de los problemas que podría traer este tipo de tecnología. Esta es la razón por la que Reality Labs Research ideó SceneScript. El objetivo es solucionar esta carencia que viene trasladándose de tecnología en tecnología.
El agregado principal que trae SceneScript
Así, este modelo de Inteligencia Artificial se enfoca en producir diseños de escenas 3D que no utilizan reglas codificadas para traducir datos virtuales sin procesar para brindar una aproximación imperfecta de todos los objetos que conforman un espacio, sino que fue entrenado para medir de forma directa la geometría de un lugar, desde un extremo al otro, a través del aprendizaje automático.
A partir de estos procesos, la representación de las escenas físicas incluye tres aspectos esenciales para lograr su cometido. En primer lugar, son compactos porque reducen los requisitos de memoria para los dispositivos a tan solo un puñado de bytes. Por otra parte, son completos porque el resultado es una geometría perfecta que se asemeja a los gráficos vectoriales escalables.
Finalmente, lo más relevante es que son interpretables, ya que los usuarios que lo utilicen serán capaces de observar, leer y editar de forma simple y ligera todas estas representaciones en tres dimensiones.
Cómo fue entrenado SceneScript
Esta Inteligencia Artificial utiliza modelos de lenguaje grande (lo que en inglés se abrevia como LLMs) y aplican técnicas de predicción de los siguientes tokens gracias a que la IA es capaz de predecir la siguiente palabra de una oración a partir de lo que se dijo anteriormente. Así lo ejemplificó Meta: “Si escribes las palabras ‘El gato se sentó en el…’, el modelo predeciría que la siguiente palabra probablemente sea ‘tapete’ o ‘piso’».
Entonces, SceneScript está basado en la misma idea de predicción del token siguiente aunque no con palabras sino con espacios. Por ejemplo, en vez de aparecer un token de lenguaje general, esta Inteligencia Artificial logra descifrar cuál será el siguiente token arquitectónico, como podría llegar a ser una pared o una puerta.
“Al proporcionar a la red una gran cantidad de datos de entrenamiento, el modelo SceneScript aprende a codificar datos visuales en una representación fundamental de la escena, que luego puede decodificar el lenguaje que describe la distribución de la habitación”, revelaron en el blog de la compañía acerca de su entrenamiento.
“Esto permite a SceneScript interpretar y reconstruir entornos complejos a partir de datos visuales y crear descripciones de texto que describan de manera efectiva la estructura de las escenas que analiza”, concluyeron sobre el modo en que este modelo fue codificado para poder realizar representaciones en tres dimensiones.