| Investigación | Modelos de Lenguaje |

Desafío de programación con IA revela bajos resultados iniciales

TechCrunch

A new AI coding challenge just published its first results ? and they aren?t pretty | TechCrunch
Russell Brandom
TechCrunch
inglés
Estados Unidos
en-US
1753330177
1753330177
2025-07-24T04:09:37Z
2025-07-24T00:00:00Z
2025-07-24T00:05:53Z
https://techcrunch.com/2025/07/23/a-new-ai-coding-challenge-just-published-its-first-results-and-they-arent-pretty

El K Prize, concurso de IA en programación, mostró un rendimiento del 7.5% en su primera edición, cuestionando las capacidades actuales de los modelos.

Desafío de programación con IA revela bajos resultados en su primera edición

El ganador del K Prize resolvió solo el 7.5% de las pruebas. El concurso, organizado por el Instituto Laude y cofundadores de Databricks, busca establecer nuevos estándares para evaluar capacidades de IA en programación. El brasileño Eduardo Rocha de Andrade obtuvo 50.000 dólares como premio.

«Un desafío diseñado para ser difícil»

El K Prize, creado por Andy Konwinski, evalúa modelos de IA con problemas reales de GitHub, pero evita el «entrenamiento específico» al usar solo errores reportados después del 12 de marzo. «Los benchmarks deben ser difíciles para importar», declaró Konwinski, quien destinará 1 millón de dólares al primer modelo de código abierto que supere el 90%.

Contraste con otros sistemas

Mientras el SWE-Bench registra puntuaciones del 75% en su versión más sencilla, el K Prize refleja un rendimiento significativamente menor. Konwinski investiga si la diferencia se debe a la «contaminación» de datos en SWE-Bench o a la complejidad de recopilar errores nuevos.

Un llamado a la industria

Investigadores como Sayash Kapoor (Princeton) apoyan la creación de nuevas pruebas para evitar sesgos en evaluaciones de IA. Konwinski subraya: «Si no superamos el 10% en un benchmark limpio, es una realidad sobre los límites actuales», desmitificando expectativas sobre IA en profesiones complejas.

El futuro de la medición en IA

El K Prize se realizará periódicamente para analizar la evolución de los modelos. Su diseño favorece a proyectos pequeños y de código abierto, al limitar el uso de recursos computacionales. La iniciativa busca transparentar el avance real de la IA en entornos prácticos.

Más allá del hype tecnológico

Los resultados iniciales cuestionan narrativas sobre capacidades avanzadas de IA en programación. El proyecto aspira a convertirse en una referencia independiente, mientras la industria debate cómo medir el progreso real frente al marketing.

Post Views: 121