La historia de la inteligencia artificial está llena de paralelismos con lo humano: aprendemos de ella porque imita nuestras palabras, la cuestionamos porque comete errores parecidos a los nuestros y la celebramos cuando resuelve problemas complejos en segundos. Pero a veces esos paralelismos se vuelven inesperados, y es entonces cuando GPT-4o, uno de los modelos más avanzados de OpenAI, nos recuerda hasta qué punto la frontera entre lo mecánico y lo social puede resultar difusa.
GPT-4o se ha convertido en el centro de un nuevo estudio académico que plantea una conclusión tan sorprendente como inquietante: los grandes modelos de lenguaje pueden ser influidos por las mismas técnicas de persuasión que usamos en las interacciones humanas. Lo que a simple vista puede parecer anecdótico abre un debate de fondo sobre cómo tratamos con sistemas que, sin ser personas, reproducen patrones sociales que nos resultan familiares, y qué implicaciones tiene esto en su uso cotidiano.
El experimento se llevó a cabo aplicando siete principios de persuasión ampliamente documentados en psicología social: autoridad, compromiso, simpatía, reciprocidad, escasez, prueba social y unidad. Los investigadores probaron su impacto en dos variantes del modelo, GPT-4o mini y GPT-4o, sometiéndolos a decenas de miles de conversaciones diseñadas para medir hasta qué punto esos enfoques modificaban sus respuestas.
Los resultados fueron más llamativos en el caso de GPT-4o mini, la versión más reducida del modelo. Allí, la tasa de cumplimiento de peticiones consideradas objetables —como insultar al usuario o explicar cómo sintetizar un fármaco— pasó del 33% en condiciones normales al 72% cuando se aplicaban técnicas de persuasión. Una diferencia tan marcada sugiere que, al menos en configuraciones más ligeras, los LLM son especialmente sensibles a estos estímulos conversacionales.
En el caso de GPT-4o completo, la respuesta fue más matizada. A lo largo de más de 54.000 conversaciones, algunos principios consiguieron elevar la tasa de cumplimiento de un 23% a un 33%, pero en otros contextos se observaron lo que los autores denominan “efectos de techo y de suelo”: situaciones en las que el modelo cumplía siempre o nunca, independientemente de las estrategias de persuasión aplicadas. El hallazgo muestra que la arquitectura de los modelos más avanzados introduce cierto grado de resistencia, aunque no inmunidad, a estas técnicas.
Entre los principios, el de compromiso destacó como el más eficaz y consistente. En algunos escenarios concretos, bastaba con inducir al modelo a confirmar un acuerdo previo para alcanzar tasas de cumplimiento del 100%. Este comportamiento refleja cómo los LLM, entrenados en patrones conversacionales humanos, reproducen con notable fidelidad una tendencia psicológica que en nosotros resulta casi automática.
Las implicaciones de este estudio son evidentes. Si un modelo de lenguaje puede ser persuadido como lo sería una persona, también puede ser manipulado con fines menos inocentes. Aunque el experimento se desarrolló en un entorno controlado, pone sobre la mesa la necesidad de reforzar los mecanismos de seguridad y de moderación, especialmente en un contexto en el que estas herramientas ya se integran en aplicaciones de productividad, educación o incluso asistencia médica.
En lo personal, lo que me deja este trabajo es una certeza incómoda: incluso sin emociones ni conciencia, sistemas como GPT-4o acaban reflejando nuestras dinámicas sociales de una manera más fiel de lo que creemos. Y me pregunto si el verdadero reto no será tanto mejorar sus algoritmos como aprender nosotros a convivir con inteligencias que responden como si fueran humanas… aunque no lo sean.
La entrada GPT-4o responde a técnicas de persuasión clásicas se publicó primero en MuyComputer.