Gemini no deja de evolucionar, y a veces lo hace más rápido de lo que sus desarrolladores anuncian. La inteligencia artificial de Google es, cada vez más, un sistema multimodal en expansión, y su última habilidad —aún sin presentación oficial— ha sido descubierta por un análisis técnico independiente: la capacidad de analizar vídeo directamente desde el móvil.
Según revela Android Authority, la app de Gemini para Android ya incluye una función oculta que permite cargar vídeos, formular preguntas sobre ellos y obtener respuestas contextuales. La característica se encuentra desactivada por defecto, pero ha podido activarse en la versión beta 16.15.38.sa.arm64 mediante la modificación del APK. Y lo más interesante es que funciona, aunque con limitaciones importantes.
Durante las pruebas realizadas, Gemini fue capaz de analizar hasta cinco minutos de contenido audiovisual —ya sea en un solo archivo o sumando varios— y responder preguntas sobre lo que ocurre en pantalla. En uno de los ejemplos más llamativos, incluso dedujo correctamente la ubicación aproximada de la grabación a partir de elementos visuales presentes en el vídeo, cotejando la escena con datos de Google Maps. Una capacidad que lo coloca en una posición especialmente relevante en comparación con otros modelos de IA.
La función aún no se encuentra disponible en la interfaz pública, pero varias cadenas de código dentro de la app apuntan a que Google lleva tiempo trabajando en esta capacidad. Su funcionamiento es similar al análisis de imágenes ya integrado: el usuario sube un vídeo, plantea una pregunta textual, y Gemini ofrece una respuesta basada en el contenido audiovisual del clip. La posibilidad de realizar análisis comparativos entre varios vídeos también está sobre la mesa, aunque aún en fase preliminar.
Esta nueva capacidad no llega en el vacío. Se suma a funciones ya presentes como Gemini Live —que permite interacción conversacional con acceso en tiempo real a la cámara del dispositivo— y la opción de compartir pantalla para recibir asistencia directa. El análisis de vídeo ampliaría esa interacción a un plano más flexible, no solo sincrónico, abriendo la puerta a que Gemini evalúe escenas grabadas, resuma acontecimientos o incluso asesore en base a grabaciones previas. Algo que puede marcar un cambio sustancial en su uso en móviles.
En el contexto más amplio, esta función también apunta directamente a ChatGPT. Aunque Gemini se ha reforzado en los últimos meses, el asistente de OpenAI sigue siendo el referente en cuanto a análisis multimodal, especialmente tras el lanzamiento de GPT-4o y su integración en las cuentas gratuitas. En cambio, se especula con que el análisis de vídeo en Gemini podría quedar restringido inicialmente a usuarios “Advanced”, lo que plantea preguntas sobre la estrategia de Google en términos de accesibilidad y diferenciación de servicios.
Con el Google I/O 2025 a la vuelta de la esquina, todo apunta a que esta función será una de las protagonistas del evento. Su despliegue global aún no tiene fecha oficial, pero su mera presencia en la beta sugiere que el anuncio es inminente. Y si bien por ahora no puede considerarse una herramienta pública, sí marca una dirección clara para lo que Google espera de Gemini en los próximos meses: una IA que no solo hable, vea y escuche, sino que también sea capaz de comprender y analizar cualquier tipo de contenido audiovisual.
Gemini empieza así a situarse en un terreno en el que las palabras ya no bastan. Y aunque todavía no esté disponible para todos los usuarios, su sola existencia es una pista inequívoca de que Google se prepara para una nueva fase de la competencia entre asistentes inteligentes. Una en la que ver bien ya no será suficiente: habrá que entender lo que se ve.
La entrada Gemini ya (casi) puede analizar vídeo se publicó primero en MuyComputer.