Uno de los grandes dilemas que acompañan al auge de la inteligencia artificial y, más concretamente, los modelos de lenguaje, no tiene que ver con lo que estas tecnologías pueden hacer, sino con lo que no podemos ver. A medida que modelos como GPT, Claude o Gemini se integran en buscadores, asistentes personales, herramientas de productividad o incluso procesos judiciales y sanitarios, crece también la inquietud por saber cómo toman decisiones. ¿Por qué un modelo responde de una forma concreta? ¿Qué factores ha tenido en cuenta? ¿Dónde se ha equivocado, y por qué? Las respuestas, hasta ahora, se perdían en una red opaca de capas y parámetros que muchos describen como una “caja negra”.
En este contexto, un estudio publicado por el equipo de Transformer Circuits propone un enfoque novedoso y extremadamente prometedor: un método para rastrear paso a paso la secuencia de razonamientos internos que realizan los modelos de lenguaje a la hora de generar un token. O lo que es lo mismo, una forma de ver cómo piensa la inteligencia artificial. La propuesta combina un modelo de reemplazo diseñado para ser interpretable con una visualización clara del flujo de información, permitiendo no solo entender qué ha ocurrido en un caso concreto, sino también qué partes del modelo lo han hecho posible.
Para situar el problema, conviene recordar que los modelos de lenguaje están formados por miles de millones de parámetros, organizados en capas donde se realizan operaciones matemáticas complejas. Aunque su comportamiento puede observarse desde fuera (por ejemplo, midiendo qué respuestas genera ante ciertos estímulos), el proceso interno que lleva de un input a un output ha sido, hasta ahora, difícil de seguir. Esta opacidad no es un simple detalle técnico: es la razón por la que resulta tan complicado detectar sesgos, explicar errores o establecer responsabilidades cuando algo falla.
Lo que plantea este nuevo enfoque es construir una versión simplificada del modelo original, que actúe como su espejo pero sea legible para los humanos. Para ello, los investigadores utilizan una técnica basada en transcoders, una especie de sustituto de las MLPs (redes neuronales multicapa) tradicionales. Estos transcoders extraen lo que llaman features —componentes intermedios del razonamiento del modelo— y las reorganizan en una estructura que puede inspeccionarse, cuantificarse y visualizarse. A este modelo de reemplazo se le denomina CLT (Cross-Layer Transcoder), porque cada feature puede recibir información de una capa y contribuir a varias posteriores.
La clave está en que estas features no son cajas cerradas, sino elementos con identidad y comportamiento concreto. Cada una se activa con una intensidad determinada y produce un efecto medible sobre los logits —las puntuaciones internas que determinan qué palabra saldrá a continuación—. Lo interesante es que estas interacciones son lineales, lo que significa que se pueden representar mediante grafos de atribución: diagramas en los que cada nodo representa una feature (o una entrada, o una salida), y cada flecha indica cuánto ha contribuido a otro nodo. Así, se puede seguir la cadena causal que ha llevado a una decisión determinada, como si estuviéramos trazando un circuito eléctrico.
Para evitar que estos grafos se vuelvan inabarcables, se aplica una técnica de poda: solo se muestran los nodos y conexiones más relevantes para el token analizado. La herramienta incluye además una interfaz interactiva, lo que permite a los investigadores explorar visualmente cada decisión, ver qué features se han activado, desde qué parte del prompt, con qué intensidad y hacia dónde ha fluido esa señal. Todo esto se complementa con pruebas empíricas: se alteran manualmente las features activas y se observa si el modelo responde como el grafo predice, confirmando así la fidelidad del sistema.
Ahora bien, los autores del estudio no afirman que este método resuelva por completo el problema de la interpretabilidad. De hecho, reconocen que es una solución parcial, sujeta a limitaciones técnicas y a la complejidad inherente de los modelos de lenguaje reales. Pero sí demuestran que es posible aislar comportamientos, reconstruir razonamientos y, en definitiva, abrir un canal de inspección directa sobre una parte del funcionamiento del modelo. Aplicado a tareas específicas —como la recuperación factual o el razonamiento numérico—, el enfoque permite detectar patrones, inconsistencias e incluso confirmar si una función está siendo ejecutada como se espera.
El valor de esta metodología no se limita al análisis puntual. También puede aplicarse a nivel global, evaluando los pesos medios entre features para identificar circuitos que operan de forma recurrente. Esto permite, por ejemplo, estudiar cómo un modelo resuelve operaciones aritméticas simples, y qué features están implicadas en ello, abriendo la puerta a posibles ajustes o refinamientos internos.
Este es, sin duda, un avance tan importante como necesario. No podemos ofrecer confianza ciega a sistemas que no se explican a sí mismos, y este estudio va justo en la dirección contraria: ofrecer herramientas para entender, auditar y corregir los modelos de lenguaje desde dentro. No estamos aún ante una inteligencia artificial transparente, pero sí ante una que empieza a dar respuestas no solo hacia afuera, sino también hacia adentro. Y esa, sin duda, es una buena noticia.
La entrada ¿Cómo «piensan» los modelos de lenguaje? Un nuevo método lo muestra se publicó primero en MuyComputer.