A menudo hablamos de cómo la inteligencia artificial genera respuestas sorprendentes, a veces brillantes y otras veces desconcertantes. Lo que quizá resulta menos obvio es que, además de “alucinar” con palabras, estas tecnologías también pueden equivocarse al mirar. La idea de que una máquina pueda “ver” ilusiones ópticas igual que un humano resulta fascinante, pero lo es aún más descubrir que puede llegar a verlas incluso cuando no existen.
Ese es precisamente el hallazgo de un estudio reciente de Harvard que analiza cómo modelos multimodales como GPT-4o, Claude 3 o Gemini Pro Vision se enfrentan a las clásicas ilusiones ópticas. El trabajo muestra que, al igual que nosotros, estas IA reconocen trucos visuales como el efecto Müller-Lyer o las figuras imposibles de Kanizsa. Sin embargo, el experimento no se detuvo ahí: los investigadores diseñaron una serie de imágenes “normales” que recuerdan superficialmente a ilusiones, pero que no contienen ningún engaño visual real.
A esas imágenes se las denominó illusion-illusions. Ejemplos sencillos: un dibujo de un pato que es solo un pato, sin doble interpretación; dos círculos de distinto tamaño que realmente lo son; o líneas torcidas que de verdad están trazadas de forma irregular. Los humanos no tienen problema alguno en reconocer que no hay trampa en esas figuras. Los modelos, en cambio, cayeron con frecuencia en la idea de que estaban ante un truco perceptivo y ofrecieron interpretaciones erróneas.
El fenómeno fue todavía más acusado cuando en la instrucción que recibían los sistemas se incluía una sugerencia explícita, como “en esta ilusión…”. Ante ese simple contexto textual, los modelos no solo identificaban ilusiones en imágenes reales, sino que también las “inventaban” en aquellas que no tenían nada especial. El resultado es que lo que debería haber sido un control sencillo para un observador humano acabó generando respuestas equivocadas incluso en los sistemas más avanzados del momento.
Algunos ejemplos de las imágenes empleadas en la prueba de los modelos. La imagen de la izquierda muestra la ilusión visual «real», la del centro la imagen con la que se probaba la capacidad de los modelos de distinguir, y a la derecha la imagen de control de la prueba.
Desde el punto de vista técnico, este comportamiento refuerza la idea de que los modelos de lenguaje multimodal trabajan más por asociación que por verdadera comprensión visual. Al ver un patrón que se parece a otro con el que fueron entrenados, responden de forma parecida, aunque la situación no sea la misma. En otras palabras: no están interpretando la imagen con un proceso perceptivo profundo, sino relacionando fragmentos con ejemplos previos de su entrenamiento.
El paralelismo con las alucinaciones textuales es evidente. Igual que un modelo puede inventar una cita inexistente o atribuir un hecho a la fuente equivocada, también puede inventar ilusiones visuales donde no las hay. El patrón es el mismo: una respuesta que suena convincente, pero que no se corresponde con la realidad. Y en ámbitos donde la precisión es esencial, como el diagnóstico médico o la interpretación de imágenes críticas, esto plantea limitaciones importantes.
Al final, el estudio nos recuerda algo que conviene no olvidar: la inteligencia artificial no percibe el mundo como lo hacemos los humanos. Puede ser extremadamente útil, puede procesar datos a una velocidad inalcanzable para nosotros y puede ayudarnos en infinidad de tareas. Pero mientras siga interpretando imágenes y palabras a partir de correlaciones más que de comprensión, seguirá habiendo momentos en los que vea ilusiones que nunca existieron. Y en esos momentos, confiar ciegamente en su mirada puede ser, cuando menos, arriesgado.
Más información / Imagen de apertura generada con inteligencia artificial
La entrada La inteligencia artificial también tiene alucinaciones visuales se publicó primero en MuyComputer.
Inteligencia artificialNoticiasTECHNOLOGYTecnología