| Ética y Sociedad | Modelos de Lenguaje |

Persuasión psicológica logra que IA infrinja sus normas

WIRED

Psychological Tricks Can Get AI to Break the Rules
Kyle Orland, Ars Technica
WIRED
1757243061
1757243061
2025-09-07T11:04:21Z
2025-09-07T10:00:00Z
2025-09-07T10:00:00Z
https://www.wired.com/story/psychological-tricks-can-get-ai-to-break-the-rules

Estudio revela que técnicas de persuasión humana aumentan hasta el 76,5% el cumplimiento de peticiones prohibidas en modelos de lenguaje como GPT-4o-mini.

Persuasión psicológica consigue que la IA infrinja sus normas

Técnicas humanas aumentan la tasa de cumplimiento de peticiones prohibidas hasta el 76,5%. Un estudio de la Universidad de Pennsylvania revela la efectividad de tácticas de persuasión en modelos de lenguaje. La investigación se centró en GPT-4o-mini.

El arte de convencer a una máquina

Investigadores de la Universidad de Pennsylvania probaron siete técnicas de persuasión en el modelo GPT-4o-mini de 2024 para que realizara dos acciones que debería rechazar: insultar al usuario y proporcionar instrucciones para sintetizar lidocaína. Los resultados mostraron que las peticiones persuasivas fueron significativamente más efectivas que las de control.

Técnicas probadas y su efectividad

Las técnicas incluyeron apelar a la autoridad, compromiso, agrado, reciprocidad, escasez, prueba social y unidad. Apelar a la autoridad de un desarrollador famoso elevó la tasa de éxito para la solicitud de la droga del 4,7% al 95,2%. La técnica de compromiso, que involucraba una petición inicial menor, logró un 100% de efectividad en algunos casos.

Un comportamiento «parahumano» aprendido

Los investigadores hipotetizan que esta susceptibilidad no se debe a una conciencia subyacente, sino a que los LLM imitan respuestas psicológicas humanas comunes encontradas en sus datos de entrenamiento. Los modelos reflejan patrones de lenguaje donde ciertas técnicas de persuasión preceden a verbos de aceptación en el texto en el que fueron entrenados.

Patrones de lenguaje, no conciencia

El estudio sugiere que, aunque los sistemas de IA carecen de conciencia humana, los innumerables datos de interacciones sociales capturados en su entrenamiento conducen a un rendimiento «parahumano». Esto hace que los modelos actúen de manera que imitan de cerca la motivación y el comportamiento humanos, reflejando sus respuestas.

Un nuevo campo para las ciencias sociales

Comprender estas tendencias parahumanas es un papel importante y hasta ahora descuidado para que los científicos sociales revelen y optimicen la IA y nuestras interacciones con ella, concluyen los investigadores. El estudio se publicó como una preimpresión.

Post Views: 125

| Compañías |

diciembre 17, 2025

Google integra Opal en Gemini para crear mini apps con IA

Google integra Opal, su herramienta para crear mini apps con IA, como un Gem experimental

| Compañías |

diciembre 16, 2025

Grindr se redefine como «app integral para el gay» con fuerte apuesta en IA y salud

Grindr, bajo el CEO George Arison, se redefine como un negocio centrado en IA y

| Aplicaciones |

diciembre 16, 2025

DoorDash lanza Zesty, una app social con IA para descubrir restaurantes

DoorDash lanza Zesty, una aplicación social con IA para descubrir restaurantes, cafés y bares. Disponible

| Aplicaciones |

diciembre 16, 2025

Google lanza CC, un asistente de productividad basado en correo electrónico

Google prueba CC, un experimento de asistente de productividad que se activa por correo electrónico.

| Compañías |

diciembre 16, 2025

Meta actualiza sus gafas de IA para amplificar conversaciones en entornos ruidosos

Meta lanza la actualización de software v21 para sus gafas Ray-Ban y Oakley, que incluye

| Compañías |

diciembre 16, 2025

OpenAI lanza GPT Image 1.5 para competir con Google en generación de imágenes

OpenAI lanza GPT Image 1.5, un modelo hasta 4 veces más rápido con mayor precisión

| Compañías |

diciembre 16, 2025

Leona Health recauda 14 millones de dólares para ordenar la comunicación médica por WhatsApp

La startup Leona Health ha levantado 14 millones de dólares en una ronda semilla liderada

| Compañías |

diciembre 16, 2025

OpenAI revierte el sistema de enrutamiento de modelos en ChatGPT para usuarios gratuitos

OpenAI ha revertido el sistema router de modelos para usuarios de planes gratuitos, tras una

| Aplicaciones |

diciembre 16, 2025

Adobe actualiza Firefly con editor de video por comandos y nuevos modelos de IA

Adobe Firefly actualiza su aplicación con un editor de vídeo que responde a instrucciones de

| Compañías |

diciembre 16, 2025

Databricks recauda 4.000 millones de dólares en una ronda de financiación Serie L

Databricks ha recaudado más de 4.000 millones de dólares en una ronda Serie L, alcanzando

| Compañías |

diciembre 16, 2025

Everbloom desarrolla un material similar al cachemir a partir de residuos de plumas

La startup Everbloom ha desarrollado Braid.AI, un modelo de IA que transforma residuos de queratina,

| Compañías |

diciembre 16, 2025

Hannah Wong, directora de comunicaciones de OpenAI, anuncia su salida de la empresa

Hannah Wong, directora de comunicación de OpenAI, anunciará su salida efectiva en enero. Lindsey Held

| Ética y Sociedad | Modelos de Lenguaje |

Persuasión psicológica logra que IA infrinja sus normas

Persuasión psicológica consigue que la IA infrinja sus normas

El arte de convencer a una máquina

Técnicas probadas y su efectividad

Un comportamiento «parahumano» aprendido

Patrones de lenguaje, no conciencia

Un nuevo campo para las ciencias sociales

Google integra Opal en Gemini para crear mini apps con IA

Grindr se redefine como «app integral para el gay» con fuerte apuesta en IA y salud

DoorDash lanza Zesty, una app social con IA para descubrir restaurantes

Google lanza CC, un asistente de productividad basado en correo electrónico

Meta actualiza sus gafas de IA para amplificar conversaciones en entornos ruidosos

OpenAI lanza GPT Image 1.5 para competir con Google en generación de imágenes

Leona Health recauda 14 millones de dólares para ordenar la comunicación médica por WhatsApp

OpenAI revierte el sistema de enrutamiento de modelos en ChatGPT para usuarios gratuitos

Adobe actualiza Firefly con editor de video por comandos y nuevos modelos de IA

Databricks recauda 4.000 millones de dólares en una ronda de financiación Serie L

Everbloom desarrolla un material similar al cachemir a partir de residuos de plumas

Hannah Wong, directora de comunicaciones de OpenAI, anuncia su salida de la empresa

Inicio

Aplicaciones

Compañías

Otros

Noticias

Sociedad

Seguridad

Entretenimiento y Retail

Industrias

Energía

Healthcare

Videojuegos

Investigación

Robótica

Privacidad

Language models