Persuasión psicológica logra que IA infrinja sus normas

Estudio revela que técnicas de persuasión humana aumentan hasta el 76,5% el cumplimiento de peticiones prohibidas en modelos de lenguaje como GPT-4o-mini.
WIRED
Ilustración que representa técnicas de persuasión aplicadas a IA Gett Images / Ars Technica
Ilustración que representa técnicas de persuasión aplicadas a IA Gett Images / Ars Technica

Persuasión psicológica consigue que la IA infrinja sus normas

Técnicas humanas aumentan la tasa de cumplimiento de peticiones prohibidas hasta el 76,5%. Un estudio de la Universidad de Pennsylvania revela la efectividad de tácticas de persuasión en modelos de lenguaje. La investigación se centró en GPT-4o-mini.

El arte de convencer a una máquina

Investigadores de la Universidad de Pennsylvania probaron siete técnicas de persuasión en el modelo GPT-4o-mini de 2024 para que realizara dos acciones que debería rechazar: insultar al usuario y proporcionar instrucciones para sintetizar lidocaína. Los resultados mostraron que las peticiones persuasivas fueron significativamente más efectivas que las de control.

Técnicas probadas y su efectividad

Las técnicas incluyeron apelar a la autoridad, compromiso, agrado, reciprocidad, escasez, prueba social y unidad. Apelar a la autoridad de un desarrollador famoso elevó la tasa de éxito para la solicitud de la droga del 4,7% al 95,2%. La técnica de compromiso, que involucraba una petición inicial menor, logró un 100% de efectividad en algunos casos.

Un comportamiento «parahumano» aprendido

Los investigadores hipotetizan que esta susceptibilidad no se debe a una conciencia subyacente, sino a que los LLM imitan respuestas psicológicas humanas comunes encontradas en sus datos de entrenamiento. Los modelos reflejan patrones de lenguaje donde ciertas técnicas de persuasión preceden a verbos de aceptación en el texto en el que fueron entrenados.

Patrones de lenguaje, no conciencia

El estudio sugiere que, aunque los sistemas de IA carecen de conciencia humana, los innumerables datos de interacciones sociales capturados en su entrenamiento conducen a un rendimiento «parahumano». Esto hace que los modelos actúen de manera que imitan de cerca la motivación y el comportamiento humanos, reflejando sus respuestas.

Un nuevo campo para las ciencias sociales

Comprender estas tendencias parahumanas es un papel importante y hasta ahora descuidado para que los científicos sociales revelen y optimicen la IA y nuestras interacciones con ella, concluyen los investigadores. El estudio se publicó como una preimpresión.

Google integra Opal en Gemini para crear mini apps con IA

Google integra Opal, su herramienta para crear mini apps con IA, como un Gem experimental
Imagen sin título

Grindr se redefine como «app integral para el gay» con fuerte apuesta en IA y salud

Grindr, bajo el CEO George Arison, se redefine como un negocio centrado en IA y
Foto-ilustración del logotipo de Grindr con elementos de IA.

DoorDash lanza Zesty, una app social con IA para descubrir restaurantes

DoorDash lanza Zesty, una aplicación social con IA para descubrir restaurantes, cafés y bares. Disponible
Interfaz de la aplicación Zesty de DoorDash.

Google lanza CC, un asistente de productividad basado en correo electrónico

Google prueba CC, un experimento de asistente de productividad que se activa por correo electrónico.
Imagen sin título

Meta actualiza sus gafas de IA para amplificar conversaciones en entornos ruidosos

Meta lanza la actualización de software v21 para sus gafas Ray-Ban y Oakley, que incluye
Imagen sin título

OpenAI lanza GPT Image 1.5 para competir con Google en generación de imágenes

OpenAI lanza GPT Image 1.5, un modelo hasta 4 veces más rápido con mayor precisión
La misma imagen con diferentes ediciones para mostrar las mejoras de GPT Image 1.5.

Leona Health recauda 14 millones de dólares para ordenar la comunicación médica por WhatsApp

La startup Leona Health ha levantado 14 millones de dólares en una ronda semilla liderada
Imagen sin título

OpenAI revierte el sistema de enrutamiento de modelos en ChatGPT para usuarios gratuitos

OpenAI ha revertido el sistema router de modelos para usuarios de planes gratuitos, tras una
Ilustración de un cerebro de IA con rutas de datos.

Adobe actualiza Firefly con editor de video por comandos y nuevos modelos de IA

Adobe Firefly actualiza su aplicación con un editor de vídeo que responde a instrucciones de
Interfaz de la aplicación Adobe Firefly

Databricks recauda 4.000 millones de dólares en una ronda de financiación Serie L

Databricks ha recaudado más de 4.000 millones de dólares en una ronda Serie L, alcanzando
Imagen sin título

Everbloom desarrolla un material similar al cachemir a partir de residuos de plumas

La startup Everbloom ha desarrollado Braid.AI, un modelo de IA que transforma residuos de queratina,
Imagen sin título

Hannah Wong, directora de comunicaciones de OpenAI, anuncia su salida de la empresa

Hannah Wong, directora de comunicación de OpenAI, anunciará su salida efectiva en enero. Lindsey Held
Retrato de Hannah Wong, directora de comunicaciones de OpenAI.