Anthropic y EEUU crean filtro para impedir que su IA ayude a construir armas nucleares
Anthropic ha desarrollado un «clasificador nuclear» en colaboración con el DOE y la NNSA. Este filtro actúa en su modelo Claude para bloquear conversaciones que puedan derivar en la construcción de armamento nuclear.
Colaboración en entorno seguro
La prueba se realizó en un entorno cloud de AWS con nivel de seguridad Top Secret. La NNSA realizó pruebas de red-teaming a modelos sucesivos de Claude, lo que permitió codefinir una lista de indicadores de riesgo nuclear para el clasificador.
Un filtro en desarrollo
El proceso de ajuste llevó varios meses hasta lograr que el sistema bloquee conversaciones peligrosas sin afectar debates legítimos sobre energía nuclear o isótopos médicos.
División entre los expertos
Mientras algunos expertos ven una medida prudente ante futuras capacidades de la IA, otros la califican de teatro de seguridad. La crítica principal argumenta que, si el modelo no fue entrenado con datos nucleares sensibles, el filtro carece de base real para demostrar su eficacia.
Preocupaciones sobre los datos
Surgen dudas sobre el acceso de corporaciones privadas a información sensible de seguridad nacional. Además, se señala la incapacidad de los modelos de lenguaje para realizar cálculos matemáticos básicos de forma fiable, un riesgo grave en un campo que requiere extrema precisión.
Un estándar voluntario para la industria
Anthropic pretende que este clasificador se convierta en una práctica de seguridad compartida y lo ofrece a otras empresas de IA. La compañía busca establecer un estándar voluntario para reducir riesgos en un dominio de seguridad nacional sensible.