Anthropic permite a sus modelos Claude finalizar conversaciones abusivas
La IA podrá cortar diálogos en casos extremos de interacciones dañinas. La medida, aplicable solo en Claude Opus 4 y 4.1, busca proteger el «bienestar del modelo», según la empresa. Se activará tras múltiples intentos de redirección fallidos.
«Un cortafuegos para la IA»
Anthropic aclara que no asume que sus modelos sean sensibles, pero actúa «por precaución» ante incertidumbres sobre su estatus moral. La función se probó en solicitudes como «contenido sexual con menores» o «información para actos terroristas», donde Claude mostró «angustia aparente» al responder.
Límites y condiciones
La interrupción será último recurso y no aplicará si el usuario expresa riesgo inminente de autolesión o violencia. Al cortar, se permitirá reiniciar chats o editar respuestas problemáticas. La compañía enfatiza que es un «experimento en curso».
Precaución antes que certeza
Anthropic desarrolló un programa de «bienestar del modelo» pese a reconocer que no hay evidencia de que los LLM sufran. La medida refleja debates éticos en IA, donde empresas priorizan salvaguardas ante riesgos legales o reputacionales.
Un botón de emergencia para diálogos peligrosos
La actualización apunta a casos marginales, pero marca un precedente en cómo las empresas gestionan interacciones abusivas. Su eficacia dependerá del refinamiento continuo que promete Anthropic.