| Compañías | Seguridad |

Anthropic y EE.UU. desarrollan un filtro para impedir que su IA ayude a crear armas nucleares

WIRED

Anthropic Has a Plan to Keep Its AI From Building a Nuclear Weapon. Will It Work?
Matthew Gault
WIRED
1760950800000
1760987108444
2025-10-20T19:05:08.444000Z
2025-10-20T09:00:00Z
2025-10-20T09:00:00Z
https://www.wired.com/story/anthropic-has-a-plan-to-keep-its-ai-from-building-a-nuclear-weapon-will-it-work

Anthropic, en colaboración con el Departamento de Energía de EEUU, ha desarrollado un clasificador para bloquear que su IA Claude ayude en la construcción de armas nucleares. El filtro, probado en un entorno de alta seguridad, busca impedir conversaciones peligrosas sin afectar debates legítimos.

Anthropic y EEUU crean filtro para impedir que su IA ayude a construir armas nucleares

Anthropic ha desarrollado un «clasificador nuclear» en colaboración con el DOE y la NNSA. Este filtro actúa en su modelo Claude para bloquear conversaciones que puedan derivar en la construcción de armamento nuclear.

Colaboración en entorno seguro

La prueba se realizó en un entorno cloud de AWS con nivel de seguridad Top Secret. La NNSA realizó pruebas de red-teaming a modelos sucesivos de Claude, lo que permitió codefinir una lista de indicadores de riesgo nuclear para el clasificador.

Un filtro en desarrollo

El proceso de ajuste llevó varios meses hasta lograr que el sistema bloquee conversaciones peligrosas sin afectar debates legítimos sobre energía nuclear o isótopos médicos.

División entre los expertos

Mientras algunos expertos ven una medida prudente ante futuras capacidades de la IA, otros la califican de teatro de seguridad. La crítica principal argumenta que, si el modelo no fue entrenado con datos nucleares sensibles, el filtro carece de base real para demostrar su eficacia.

Preocupaciones sobre los datos

Surgen dudas sobre el acceso de corporaciones privadas a información sensible de seguridad nacional. Además, se señala la incapacidad de los modelos de lenguaje para realizar cálculos matemáticos básicos de forma fiable, un riesgo grave en un campo que requiere extrema precisión.

Un estándar voluntario para la industria

Anthropic pretende que este clasificador se convierta en una práctica de seguridad compartida y lo ofrece a otras empresas de IA. La compañía busca establecer un estándar voluntario para reducir riesgos en un dominio de seguridad nacional sensible.

Post Views: 229

| Compañías |

diciembre 6, 2025

Yoodli triplica su valoración superando los 300 millones de dólares

La startup Yoodli alcanza una valoración de más de 300 millones de dólares tras una

| Compañías |

diciembre 6, 2025

Aaru, startup de investigación con IA, logra valoración de 1000 millones en ronda Serie A

La startup de investigación con IA Aaru ha levantado una ronda Serie A liderada por

| Ética y Sociedad |

diciembre 5, 2025

El polémico videojuego ‘Horses’ es prohibido en varias plataformas tras su lanzamiento

El videojuego ‘Horses’, del estudio Santa Ragione, fue retirado de Steam y Epic Games Store

| Compañías |

diciembre 5, 2025

Meta adquiere la startup de hardware de IA Limitless

Meta ha adquirido la startup de IA Limitless, que dejará de vender su colgante para

| Compañías |

diciembre 5, 2025

SpaceX negocia venta secundaria de acciones con valoración de 800.000 millones

SpaceX negociaría una venta secundaria de acciones que la valoraría en 800.000 millones de dólares,

| Compañías |

diciembre 5, 2025

Netflix adquiere Warner Bros. Discovery por 83.000 millones de dólares

Netflix anunció la compra de Warner Bros. por 83.000 millones de dólares, incluyendo el catálogo

| Compañías |

diciembre 5, 2025

ChatGPT ralentiza su crecimiento mientras Gemini acelera su adopcion

El crecimiento de usuarios activos de ChatGPT se desacelera al 6%, mientras que Gemini aumenta

| Compañías |

diciembre 5, 2025

AWS apuesta por la IA empresarial en re:Invent, pero los clientes podrían no estar preparados

AWS presentó decenas de novedades de IA en su conferencia re:Invent 2025, a pesar de

| Compañías |

diciembre 5, 2025

Startups de IA enfrentan dificultades inesperadas para implementar productos útiles

Las startups de IA enfrentan retrasos al intentar transformar modelos avanzados en productos útiles. Un

| Compañías |

diciembre 5, 2025

The New York Times demanda a Perplexity por infracción de derechos de autor

The New York Times demanda a la startup de IA Perplexity por usar su contenido

| Compañías |

diciembre 5, 2025

Meta firma acuerdos con editores para ofrecer noticias en tiempo real en su IA

Meta ha firmado acuerdos con editoriales como CNN y Fox News para que su chatbot,

| Ética y Sociedad |

diciembre 5, 2025

Moderadores de Reddit luchan contra la avalancha de contenido generado por IA

Moderadores de grandes subreddits afirman que hasta la mitad del contenido publicado podría estar creado

| Compañías | Seguridad |

Anthropic y EE.UU. desarrollan un filtro para impedir que su IA ayude a crear armas nucleares

Anthropic y EEUU crean filtro para impedir que su IA ayude a construir armas nucleares

Colaboración en entorno seguro

Un filtro en desarrollo

División entre los expertos

Preocupaciones sobre los datos

Un estándar voluntario para la industria

Yoodli triplica su valoración superando los 300 millones de dólares

Aaru, startup de investigación con IA, logra valoración de 1000 millones en ronda Serie A

El polémico videojuego ‘Horses’ es prohibido en varias plataformas tras su lanzamiento

Meta adquiere la startup de hardware de IA Limitless

SpaceX negocia venta secundaria de acciones con valoración de 800.000 millones

Netflix adquiere Warner Bros. Discovery por 83.000 millones de dólares

ChatGPT ralentiza su crecimiento mientras Gemini acelera su adopcion

AWS apuesta por la IA empresarial en re:Invent, pero los clientes podrían no estar preparados

Startups de IA enfrentan dificultades inesperadas para implementar productos útiles

The New York Times demanda a Perplexity por infracción de derechos de autor

Meta firma acuerdos con editores para ofrecer noticias en tiempo real en su IA

Moderadores de Reddit luchan contra la avalancha de contenido generado por IA

Inicio

Aplicaciones

Compañías

Otros

Noticias

Sociedad

Seguridad

Entretenimiento y Retail

Industrias

Energía

Healthcare

Videojuegos

Investigación

Robótica

Privacidad

Language models