Desafío de programación con IA revela bajos resultados iniciales

El K Prize, concurso de IA en programación, mostró un rendimiento del 7.5% en su primera edición, cuestionando las capacidades actuales de los modelos.
TechCrunch

Desafío de programación con IA revela bajos resultados en su primera edición

El ganador del K Prize resolvió solo el 7.5% de las pruebas. El concurso, organizado por el Instituto Laude y cofundadores de Databricks, busca establecer nuevos estándares para evaluar capacidades de IA en programación. El brasileño Eduardo Rocha de Andrade obtuvo 50.000 dólares como premio.

«Un desafío diseñado para ser difícil»

El K Prize, creado por Andy Konwinski, evalúa modelos de IA con problemas reales de GitHub, pero evita el «entrenamiento específico» al usar solo errores reportados después del 12 de marzo. «Los benchmarks deben ser difíciles para importar», declaró Konwinski, quien destinará 1 millón de dólares al primer modelo de código abierto que supere el 90%.

Contraste con otros sistemas

Mientras el SWE-Bench registra puntuaciones del 75% en su versión más sencilla, el K Prize refleja un rendimiento significativamente menor. Konwinski investiga si la diferencia se debe a la «contaminación» de datos en SWE-Bench o a la complejidad de recopilar errores nuevos.

Un llamado a la industria

Investigadores como Sayash Kapoor (Princeton) apoyan la creación de nuevas pruebas para evitar sesgos en evaluaciones de IA. Konwinski subraya: «Si no superamos el 10% en un benchmark limpio, es una realidad sobre los límites actuales», desmitificando expectativas sobre IA en profesiones complejas.

El futuro de la medición en IA

El K Prize se realizará periódicamente para analizar la evolución de los modelos. Su diseño favorece a proyectos pequeños y de código abierto, al limitar el uso de recursos computacionales. La iniciativa busca transparentar el avance real de la IA en entornos prácticos.

Más allá del hype tecnológico

Los resultados iniciales cuestionan narrativas sobre capacidades avanzadas de IA en programación. El proyecto aspira a convertirse en una referencia independiente, mientras la industria debate cómo medir el progreso real frente al marketing.

TechCrunch Disrupt 2025 se celebrará en San Francisco del 27 al 29 de octubre

TechCrunch Disrupt 2025 se celebra en San Francisco del 27 al 29 de octubre. Los
Imagen sin título

California aprueba ley pionera para regular chatbots IA de compañía

California aprueba la primera ley de EE.UU. que regula chatbots de IA. La SB 243
Gavin Newsom firma la ley SB 243 sobre inteligencia artificial

TechCrunch Disrupt 2025 se celebra en San Francisco del 27 al 29 de octubre

El TechCrunch Disrupt 2025 se celebra del 27 al 29 de octubre en San Francisco.
Imagen sin título

Últimas mesas disponibles para TechCrunch Disrupt 2025 en San Francisco

Solo quedan 7 mesas disponibles para TechCrunch Disrupt 2025 en San Francisco. La fecha límite
Imagen sin título

Salesforce anuncia Agentforce 360 para competir en el mercado empresarial de IA

Salesforce presenta Agentforce 360, una actualización de su plataforma de agentes de IA que incluye
Logotipo de Salesforce en un evento

Nuevas normas en China obligan a Tesla a rediseñar sus manijas de puerta

China exige pomos mecánicos visibles y operables sin herramientas para 2027. Esta normativa, impulsada por
Imagen sin título

Comediante Freya McGhee combina ciencia y humor para alcanzar millones de visitas

La química Freya McGhee abandona su doctorado y triunfa en la comedia con monólogos sobre
Un escolar durmiendo sobre un libro durante una lección

Influencers conservadoras remodelan el panorama de las citas en EE.UU.

Influencers conservadoras lideran el fenómeno ‘womanosphere’, promoviendo relaciones tradicionales y creando plataformas de citas con
Imagen sin título

Nvidia supera su ritmo de inversión en startups de IA en 2025

Nvidia ha participado en 50 operaciones de capital riesgo en 2025, superando las 48 de
Logotipo de Nvidia en una pantalla

El cofundador de Thinking Machines Lab, Andrew Tulloch, se incorpora a Meta

Andrew Tulloch, cofundador de Thinking Machines Lab, se incorpora a Meta. Su salida se produce
Andrew Tulloch, cofundador de Thinking Machines Lab.

Grandes empresas apuestan por la IA pese a riesgos en su implementación

Zendesk presenta agentes de IA que resolverían el 80% de consultas de servicio al cliente.
Representación gráfica de inteligencia artificial en el entorno empresarial

Apple apuesta por Siri para mantener su dominio en la era de la IA

OpenAI permite ejecutar aplicaciones como Spotify y Booking.com directamente en ChatGPT. Los 800 millones de
Representación de un iPhone mostrando un asistente de IA.