Microsoft desarrolló una Inteligencia Artificial que hace cantar a la Mona Lisa

VASA-1 es el último proyecto tecnológico de Microsoft. La herramienta, que tiene la capacidad de generar movimiento y voz en imágenes estáticas, no estará disponible en la proximidad.
microsoft vasa

Luego del reciente lanzamiento de Copilot, un chatbot disponible para todos los usuarios de Windows y que compite contra ChatGPT o Gemini, Microsoft sigue desarrollando herramientas de Inteligencia Artificial para mantenerse en lo más alto de la carrera por el liderazgo en esta tecnología. Ahora, enseñaron los primeros avances de un producto distinto a todos los anteriores que realizaron. 

Se trata de una aplicación capaz de modificar el modo en que las personas interactúan con las imágenes y los audios. Esta tecnología impulsada por Inteligencia Artificial es capaz de darle vida y provocar movimiento en fotografías que están estáticas. Para hacerlo, genera vídeos realistas en los que los personajes cobran vida. Sin embargo, por el momento Microsoft no planea lanzar la herramienta. 

Cómo es la tecnología que produjo Microsoft

En los últimos días, la compañía cofundada por Bill Gates compartió un video elaborado por Inteligencia Artificial que se viralizó en las redes sociales porque enseñaba a la Mona Lisa, el personaje del cuadro La Gioconda, la obra maestra de Leonardo Da Vinci, cantando un rap escrito que fue realizado por la estrella de hollywood Anne Hathaway. 

La herramienta de Microsoft se llama VASA-1 y cuenta con las características para animar imágenes quietas y crear videos que parecen realistas. Para lograr esto, los personajes logran sincronizar su voz con el movimiento de sus labios, mientras que también replican gestos que los humanos realizan con frecuencia. 

El medio de comunicación Daily Mail compartió el video de la Mona Lisa generado por la herramienta de Microsoft.

Cómo fue la programación de VASA-1

Para alcanzar este hito tecnológico, los desarrolladores de la compañía entrenaron una IA utilizando una extensa librería de vídeos de personas conversando. Esto le otorgó a la herramienta la capacidad de capturar y reproducir movimientos faciales y gestos, como pueden ser la mirada o el parpadeo, que las personas realizan mientras hablan. 

De esta manera, este entrenamiento le permitió poder transformar una fotografía estática en un video de alta definición en la que el avatar presente cobra vida y habla por su propia cuenta. Ya cuenta con las características necesarias para provocar la ilusión de una conversación real, pese a que los usuarios no podrán utilizar esta función en la proximidad. 

Cómo funciona la flamante tecnología de Microsoft

La programación de este avance en la generación de videos se conforma por la combinación de varias herramientas de Inteligencia Artificial generativa (IAG) y avanzada. Los dos sistemas más importantes son DALL E-3 (desarrollado por OpenAI, compañía en la que Microsoft posee casi la mitad de las acciones) y StyleGAN2. 

Luego, para poder generar el material audiovisual, únicamente requiere de un clip de audio de voz y de una imagen que contenga una figura de referencia. Con estos dos elementos, tiene las características para producir un video de 512 x 521 píxeles a 45 fotogramas por segundo en su modalidad offline. También cuenta con una versión online en la que alcanza 40 fps y una latencia de 170 ms.

Las implicaciones éticas detrás del lanzamiento de la herramienta de Microsoft

En una tendencia mundial, muchas tecnologías de Inteligencia Artificial preocupan a la población porque tienen la capacidad de crear noticias falsas, fake news o contenido deepfake que puede tener graves consecuencias por su alto grado de realidad y verosimilitud. Por esa razón, muchas entidades gubernamentales están desarrollando leyes para limitar su aplicación.

Existe un temor generalizado de que la herramienta sea utilizada para producir contenido con fines maliciosos.

A su vez, cabe destacar que el 2024 es uno de los años con más elecciones presidenciales en toda la historia, destacándose lo que ocurrirá en Estados Unidos, país en el que Microsoft tiene su sede principal. Para evitar contribuir a la desinformación o a fines fraudulentos de campaña, VASA-1 no estará disponible durante, al menos, este lapso de tiempo. 

Esto es bastante similar a lo que decidió realizar OpenAI, la startup detrás de ChatGPT que está muy ligada a Microsoft porque el 49% de sus acciones le pertenecen, con aplicaciones como Sora (generadora de videos de alta calidad) o un proyecto para imitar la voz de cualquier persona que todavía no fue lanzado por las mismas razones.

Algunas medidas que tomó Microsoft para evitar que esto ocurra

De acuerdo a lo explicado en un artículo de la revista Time Magazine, los desarrolladores de VASA-1 detallaron que la herramienta no estará disponible en línea ““hasta que estemos seguros de que la tecnología será utilizada de manera responsable y de acuerdo con las regulaciones adecuadas”. “Estamos en contra de cualquier comportamiento que cree contenidos engañosos o perjudiciales de personas reales”, sostuvieron sobre esta medida. 

Según sus declaraciones, están enfocados en “desarrollar Inteligencia Artificial de manera responsable, con el objetivo de avanzar en el bienestar humano”. Por esa razón, la distribución de VASA-1 solamente estará destinada a aplicaciones específicas. Esto incluye la creación de asistentes virtuales para instituciones gubernamentales o la integración de productos de Microsoft, como Copilot. 

La compañía compartió una imagen que demuestra cómo es el funcionamiento de su flamante herramienta.

De todas maneras, es importante remarcar que los rostros que generan ambas IAG no se corresponden con ninguna identidad. Algo que es muy importante para Microsoft, según explicaron en un comunicado en el que resaltaron esta norma como una de las medidas éticas más relevantes de VASA-1

La falta de regulaciones genera problemas a nivel mundial

Cabe destacar que, como la Inteligencia Artificial es un fenómeno reciente, principalmente porque ChatGPT fue lanzada a finales del 2022, la mayoría de los países no tienen regulaciones existentes que puedan limitar su utilización. Por esa razón, muchas empresas deben impulsar normas éticas que impidan la producción de contenidos con fines malignos, desinformación o deepfakes. 

En este sentido, es importante remarcar que Estados Unidos carece de una legislación federal que regule este tipo de actividades, aunque haya diez estados que lograron criminalizar ciertos comportamientos. Por su parte, la Unión Europea está avanzando en la adopción de un Acto de Inteligencia Artificial que limitará la influencia de la tecnología. 

ETIQUETA:

Compartir