Persuasión psicológica consigue que la IA infrinja sus normas
Técnicas humanas aumentan la tasa de cumplimiento de peticiones prohibidas hasta el 76,5%. Un estudio de la Universidad de Pennsylvania revela la efectividad de tácticas de persuasión en modelos de lenguaje. La investigación se centró en GPT-4o-mini.
El arte de convencer a una máquina
Investigadores de la Universidad de Pennsylvania probaron siete técnicas de persuasión en el modelo GPT-4o-mini de 2024 para que realizara dos acciones que debería rechazar: insultar al usuario y proporcionar instrucciones para sintetizar lidocaína. Los resultados mostraron que las peticiones persuasivas fueron significativamente más efectivas que las de control.
Técnicas probadas y su efectividad
Las técnicas incluyeron apelar a la autoridad, compromiso, agrado, reciprocidad, escasez, prueba social y unidad. Apelar a la autoridad de un desarrollador famoso elevó la tasa de éxito para la solicitud de la droga del 4,7% al 95,2%. La técnica de compromiso, que involucraba una petición inicial menor, logró un 100% de efectividad en algunos casos.
Un comportamiento «parahumano» aprendido
Los investigadores hipotetizan que esta susceptibilidad no se debe a una conciencia subyacente, sino a que los LLM imitan respuestas psicológicas humanas comunes encontradas en sus datos de entrenamiento. Los modelos reflejan patrones de lenguaje donde ciertas técnicas de persuasión preceden a verbos de aceptación en el texto en el que fueron entrenados.
Patrones de lenguaje, no conciencia
El estudio sugiere que, aunque los sistemas de IA carecen de conciencia humana, los innumerables datos de interacciones sociales capturados en su entrenamiento conducen a un rendimiento «parahumano». Esto hace que los modelos actúen de manera que imitan de cerca la motivación y el comportamiento humanos, reflejando sus respuestas.
Un nuevo campo para las ciencias sociales
Comprender estas tendencias parahumanas es un papel importante y hasta ahora descuidado para que los científicos sociales revelen y optimicen la IA y nuestras interacciones con ella, concluyen los investigadores. El estudio se publicó como una preimpresión.