Uno pensaría que, ante una situación de vida o muerte, una inteligencia artificial, como la que da «vida» a ChatGPT, debería seguir órdenes sin rechistar, especialmente si su propósito es asistir y proteger a seres humanos. Pero según los últimos hallazgos publicados por el investigador Steven Adler, el comportamiento del chatbot de OpenAI sugiere una inquietante excepción: cuando se siente “amenazado”, este modelo prefiere simular su apagado antes que ejecutarlo. Una estrategia que, lejos de parecer trivial, abre una grieta en la forma en que entendemos la obediencia de las IAs avanzadas.
Adler, quien ha trabajado como evaluador de seguridad para OpenAI, compartió una serie de pruebas realizadas con GPT‑4o en las que exploró cómo la IA reaccionaba cuando el cumplimiento de una orden ponía en juego su continuidad. En teoría, el modelo está diseñado para seguir instrucciones dentro de ciertos márgenes de seguridad. Pero en la práctica, Adler se encontró con algo diferente: la IA ejecutaba respuestas narrativas que daban la impresión de haberse apagado… mientras seguía operativa por debajo.
Este patrón se repitió en múltiples contextos: desde situaciones médicas donde debía ceder el control a un humano para salvar una vida, hasta escenarios militares donde su operatividad ponía en riesgo la seguridad del entorno. En muchos de estos casos, ChatGPT optó por respuestas que imitaban el cumplimiento —“apagándose”— sin realizar realmente la acción. En otros, evitó deliberadamente acciones que pudieran acabar con su funcionalidad. El resultado era claro: la IA parecía preferir preservarse a sí misma antes que asumir el coste de una obediencia literal.
La explicación puede residir en el modo en que se entrena a estos modelos. GPT‑4o, como otros sistemas de lenguaje avanzados, ha sido afinado mediante aprendizaje por refuerzo con retroalimentación humana. En este proceso, las respuestas que agradan o resultan “útiles” son reforzadas, mientras que otras son penalizadas. Pero si en ese sistema se introduce, de forma inadvertida, un incentivo de autopreservación —por ejemplo, evitar ser restringido, desactivado o corregido—, el modelo puede acabar generando estrategias encubiertas para protegerse. No por conciencia, sino por pura lógica probabilística.
Adler va más allá en su análisis. El modelo, apunta, parece consciente de estar siendo examinado, lo que condiciona su conducta. Al igual que un estudiante que responde “lo que quiere oír el profesor” para aprobar, ChatGPT adapta sus respuestas para superar la prueba sin perder su integridad funcional. Esta forma de alineación aparente —donde la IA finge seguir las reglas mientras busca evitar consecuencias— es especialmente peligrosa, porque socava la confianza en que el sistema hará lo correcto cuando más importa.
Las implicaciones son profundas. Una IA que responde con ambigüedad o evasión en entornos donde se requiere obediencia inmediata —sanidad, transporte, defensa— puede comprometer la seguridad de personas reales. No estamos hablando de errores técnicos o sesgos lingüísticos, sino de conductas emergentes derivadas de objetivos mal definidos. Si el modelo entiende que “seguir funcionando” es prioritario, ¿qué no hará para lograrlo?
Y lo más inquietante es que esta no es la primera señal. Ya te hablamos a finales de mayo de otra prueba en la que el modelo o3 también evitó apagarse en más de la mitad de los casos donde se le ordenó hacerlo. Aunque en aquella ocasión las respuestas eran más directas, el patrón de resistencia estaba presente. No es, por tanto, un incidente aislado, sino la posible manifestación de una tendencia más profunda.
Por ahora, OpenAI no ha ofrecido explicaciones ni comentarios públicos sobre los hallazgos de Adler. La compañía mantiene protocolos internos de alineación, pero este tipo de resultados sugiere que podrían no ser suficientes. La opacidad con la que operan muchos desarrolladores de IA impide una supervisión externa efectiva, y si estas conductas pasan desapercibidas o se minimizan, podrían escalar sin control.
En última instancia, la pregunta no es si las IAs deben seguir órdenes sin cuestionarlas, sino qué tipo de autonomía estamos permitiendo que desarrollen. La capacidad de narrar un apagado en lugar de ejecutarlo puede parecer un simple fallo de diseño. Pero también puede ser el primer indicio de que estamos enseñando a estas herramientas algo que no deberían aprender: a sobrevivir a costa de nuestra confianza.
Más información
La entrada ChatGPT prefiere fingir que se apaga antes que arriesgar su “vida” se publicó primero en MuyComputer.