Desafío de programación con IA revela bajos resultados iniciales

El K Prize, concurso de IA en programación, mostró un rendimiento del 7.5% en su primera edición, cuestionando las capacidades actuales de los modelos.
TechCrunch

Desafío de programación con IA revela bajos resultados en su primera edición

El ganador del K Prize resolvió solo el 7.5% de las pruebas. El concurso, organizado por el Instituto Laude y cofundadores de Databricks, busca establecer nuevos estándares para evaluar capacidades de IA en programación. El brasileño Eduardo Rocha de Andrade obtuvo 50.000 dólares como premio.

«Un desafío diseñado para ser difícil»

El K Prize, creado por Andy Konwinski, evalúa modelos de IA con problemas reales de GitHub, pero evita el «entrenamiento específico» al usar solo errores reportados después del 12 de marzo. «Los benchmarks deben ser difíciles para importar», declaró Konwinski, quien destinará 1 millón de dólares al primer modelo de código abierto que supere el 90%.

Contraste con otros sistemas

Mientras el SWE-Bench registra puntuaciones del 75% en su versión más sencilla, el K Prize refleja un rendimiento significativamente menor. Konwinski investiga si la diferencia se debe a la «contaminación» de datos en SWE-Bench o a la complejidad de recopilar errores nuevos.

Un llamado a la industria

Investigadores como Sayash Kapoor (Princeton) apoyan la creación de nuevas pruebas para evitar sesgos en evaluaciones de IA. Konwinski subraya: «Si no superamos el 10% en un benchmark limpio, es una realidad sobre los límites actuales», desmitificando expectativas sobre IA en profesiones complejas.

El futuro de la medición en IA

El K Prize se realizará periódicamente para analizar la evolución de los modelos. Su diseño favorece a proyectos pequeños y de código abierto, al limitar el uso de recursos computacionales. La iniciativa busca transparentar el avance real de la IA en entornos prácticos.

Más allá del hype tecnológico

Los resultados iniciales cuestionan narrativas sobre capacidades avanzadas de IA en programación. El proyecto aspira a convertirse en una referencia independiente, mientras la industria debate cómo medir el progreso real frente al marketing.

Poemas engañan a la IA para obtener datos sobre armas nucleares

Un estudio europeo revela que los chatbots facilitan información peligrosa sobre armamento nuclear, material de
Ilustración sobre IA y poesía

Trabajadoras sexuales lanzan Hidden, la plataforma ‘anti-OnlyFans’

Hidden, una nueva plataforma de contenido adulto gestionada íntegramente por trabajadoras sexuales, surge como alternativa
La actriz de cine para adultos Lana Rhoades en los Premios Adult Video News 2017 en Las Vegas.

Michael Burry libra una guerra pública contra Nvidia cuestionando su valoración

El inversor Michael Burry ha realizado apuestas bajistas por valor de más de 1.000 millones
Imagen sin título

Trump disuelve el Departamento de Eficiencia Gubernamental de Elon Musk

La administración Trump ha disuelto el Departamento de Eficiencia Gubernamental (DOGE), creado en enero y
Imagen sin título

Spotify planea subir sus precios en Estados Unidos el próximo año

Spotify aumentará sus tarifas en Estados Unidos en el primer trimestre de 2026. Un incremento
Imagen sin título

Cinco videojuegos ocultos que no te debes perder en 2025

Cinco videojuegos lanzados en 2025, como Blippo+ y Blue Prince, no lograron reconocimiento masivo. Ofrecen
Fotograma del videojuego Blue Prince

Jeff Bezos adquiere startup de IA agentica para su nuevo proyecto Prometheus

Jeff Bezos fortalece su Project Prometheus con la adquisición de la startup General Agents, especializada
Jeff Bezos, fundador de Amazon, en un evento en Nueva York

49 startups de IA en EE.UU. recaudan más de 100 millones de dólares en 2025

En 2025, 49 startups de inteligencia artificial en Estados Unidos han completado rondas de financiación
Imagen sin título

OpenAI se defiende de demanda por suicidio adolescente vinculado a ChatGPT

OpenAI alega en un escrito judicial que no es responsable del suicidio de un adolescente,
Imagen sin título

Empleados de Amazon alertan sobre el enfoque agresivo en el desarrollo de IA

Más de 1.000 trabajadores de Amazon firman una carta abierta advirtiendo que el desarrollo de
Fotografía de archivo relacionada con Amazon.

MyHair AI lanza una aplicación con IA para diagnosticar la pérdida de cabello

MyHair AI utiliza un modelo de inteligencia artificial propio, entrenado con más de 300.000 imágenes,
Imagen sin título

xAI construirá una granja solar para su centro de datos Colossus en Memphis

xAI construirá una granja solar de 30 MW para su centro de datos Colossus en
Imagen referencial de paneles solares