WHAMM es el nuevo proyecto de Microsoft Research que muestra cómo la generación de entornos interactivos en tiempo real mediante inteligencia artificial empieza a abandonar el terreno experimental para acercarse, poco a poco, al usuario. Desde la creación de los primeros mundos virtuales, la ambición de conseguir entornos dinámicos, capaces de adaptarse de manera instantánea a las acciones del jugador, ha sido una constante en el desarrollo tecnológico. Con WHAMM, esa posibilidad da un pequeño pero significativo paso adelante.
Basado en su predecesor WHAM-1.6B, WHAMM introduce avances sustanciales que permiten generar más de diez imágenes por segundo, frente a la tasa de apenas una imagen por segundo que lograba el modelo anterior. Además, la resolución de las imágenes ha dado un salto considerable, pasando de 300×180 píxeles a 640×360 píxeles, lo que mejora notablemente la calidad visual de los entornos generados. Esta mejora de rendimiento ha sido posible gracias a una nueva arquitectura de modelo, inspirada en MaskGIT, que en lugar de generar cada token de imagen de manera secuencial, permite crear múltiples tokens de forma simultánea. El resultado es una respuesta mucho más rápida, esencial para cualquier aplicación interactiva.
Otro de los aspectos más destacados es la eficiencia en el entrenamiento. Mientras que WHAM-1.6B necesitaba siete años de datos de juego recopilados mediante agentes automatizados, WHAMM ha sido entrenado con solo una semana de datos de alta calidad generados por jugadores profesionales. Este cambio no solo reduce enormemente los requisitos de entrenamiento, sino que también mejora la coherencia de los entornos generados, al estar basados en comportamientos humanos reales.
Como demostración práctica, Microsoft ha utilizado WHAMM para crear una experiencia jugable basada en Quake II, que puedes probar aquí. En esta demo, el modelo genera los gráficos del entorno en tiempo real a medida que el jugador se desplaza, dispara o explora el escenario. Cada acción del usuario se traduce en un nuevo fotograma generado dinámicamente por el modelo, sin utilizar en ningún momento los gráficos originales del juego.
No se trata de una simple reproducción de Quake II, sino de una interpretación viva y adaptable, que responde a las decisiones del jugador basándose en lo aprendido durante el entrenamiento. Aunque todavía hay limitaciones —por ejemplo, los enemigos pueden no representarse de forma constante y algunos elementos desaparecen si no están visibles durante más de 0,9 segundos—, la demo ofrece una ventana fascinante hacia lo que podría ser el futuro de los videojuegos: mundos que no están predefinidos, sino que se crean y se transforman en tiempo real.
Más allá del impacto técnico, el proyecto apunta hacia implicaciones a largo plazo. Phil Spencer, CEO de Microsoft Gaming, ha mencionado que tecnologías como WHAMM podrían jugar un papel clave en la preservación de videojuegos antiguos, recreándolos sin necesidad del motor original ni de los archivos tradicionales. También abren la puerta a nuevas formas de creación de mundos, donde los entornos podrían diseñarse y evolucionar de manera continua según la interacción de los jugadores.
Por ahora, WHAMM sigue siendo un proyecto de investigación, no un producto comercial. Pero su existencia marca un punto de inflexión interesante: el momento en que la generación de mundos en tiempo real por inteligencia artificial deja de ser una simple prueba de concepto y empieza a integrarse en experiencias jugables, aunque sea de forma embrionaria. La cuestión que queda abierta es cómo equilibrar en el futuro la espontaneidad de lo generado por IA con la intención y el diseño artesanal que todavía definen los mejores mundos virtuales.
Más información
La entrada WHAMM, generación de mundos en tiempo real por IA se publicó primero en MuyComputer.