Los benchmarks de IA pierden sentido: ¿cómo elegir un modelo entonces?

En marzo analizamos cómo funcionan los benchmarks de LLM – GPQA Diamond, SWE-bench, Chatbot Arena. En abril probamos 53 modelos y descubrimos que la diferencia de calidad entre los modelos punteros es de décimas de punto, mientras que en precio es de tres órdenes de magnitud.

Ahora, la siguiente pregunta. ¿Y si los propios benchmarks dejan de funcionar?

El 1 de mayo de 2026, Epoch AI – la organización que creó varios de los benchmarks clave del sector – publicó un debate con un título revelador: «Are AI Benchmarks Doomed?». Tres investigadores – Anson Ho, Greg Burnham y Tom Adamczewski – analizaron por qué las pruebas se saturan más rápido de lo que tardan en desarrollarse, y qué hacer al respecto.

Repasemos sus argumentos desde la perspectiva de lo que le importa a un manager.

El problema: los benchmarks se saturan más rápido de lo que se crean

Antes, un benchmark nuevo duraba años. MMLU, creado en 2020, siguió siendo relevante hasta 2024. Hoy la situación es distinta.

GPQA Diamond – una prueba en la que incluso los expertos con acceso a internet fallan el 60% de las veces – aguantó dos años. Para los estándares de 2026, es una eternidad. GDPVal, de OpenAI, cuyo desarrollo costó millones de dólares, ya está casi saturado. Cuando en el invierno de 2025 aparecieron los modelos con razonamiento (o1), cerraron de un solo golpe benchmarks matemáticos que se consideraban a prueba de futuro.

El patrón se ve con claridad: cuanto más rápido avanzan los modelos, menos viven las pruebas.

La brecha entre los puntajes y el valor de negocio

Esta es la observación clave de Epoch AI, y coincide con nuestros datos – y también con su propia investigación sobre la profundidad de uso de la IA: el 62% de los usuarios aplican los modelos solo a una o dos tareas. La saturación de GPQA Diamond no se tradujo en un efecto económico proporcional. Los modelos que sacan más del 90% en pruebas de expertos no se volvieron el doble de útiles para las tareas de gestión habituales.

La razón es que los benchmarks miden la parte «autocontenida» del trabajo. Responder una pregunta difícil de física es una cosa. Integrar esa respuesta en el contexto de un proyecto, tener en cuenta las restricciones políticas internas, alinearla con tres stakeholders y presentarla en el formato que aceptará el comité financiero es otra muy distinta.

En nuestra prueba de 53 modelos vimos lo mismo: la diferencia entre un modelo de 0,17 $ y otro de 0,002 $ por consulta era de 0,24 puntos sobre cinco. Los benchmarks muestran una brecha. Las tareas reales, no.

La distancia entre el puntaje y la utilidad real es evidente con ejemplos. Lo difícil es otra cosa: desarrollar un olfato práctico sobre lo que el modelo sabe hacer justo para ti. Eso no se lee en una tabla: se forma a través de las tareas.

Prueba 9 tareas de gestión gratis. Tu resultado dirá más sobre el modelo que cualquier benchmark.

Sin pago requerido • Notificación al lanzamiento

Unirse a la lista

Tres categorías de evaluación – y por qué importan

Tom Adamczewski propuso una clasificación útil de cómo se puede evaluar un modelo:

Categoría	Cómo funciona	Ejemplo	Problema
Verificación automática	Un algoritmo compara la respuesta con una solución de referencia	MMLU, FrontierMath	Se satura fácil – los modelos aprenden a «aprobar el test»
LLM como juez	Otro modelo evalúa la respuesta según una rúbrica	Nuestra prueba de 54 modelos	Depende de la calidad del juez
Evaluación humana	Personas valoran el resultado	Chatbot Arena, Remote Labor Index	Caro y lento

Para el manager, la conclusión importa: cuanto más cerca está la evaluación del trabajo real, más cara y lenta es, pero también más útil. Las pruebas automáticas dan una cifra. La evaluación humana da comprensión.

Por eso Chatbot Arena – un ranking donde personas reales comparan respuestas a ciegas – sigue siendo el más fiable. Es lo más parecido a cómo eliges una herramienta: «¿qué respuesta me ayudó más?».

Qué reemplaza a los benchmarks clásicos

Epoch AI destaca varias líneas de trabajo que merecen atención.

Familias de tareas escalables

En lugar de un conjunto fijo de preguntas, tareas con dificultad regulable. Un ejemplo es MirrorCode, un proyecto conjunto de Epoch AI y METR. El modelo debe reproducir un programa viendo solo su comportamiento. La dificultad escala de 100 líneas de código a más de 100 000. Los mejores modelos gastaron miles de millones de tokens reimplementando Apple Pkl (16 000 líneas en C) – y no completaron la tarea del todo.

Para el manager, la analogía es clara: es como evaluar a un empleado no por su conocimiento teórico, sino por su capacidad de sacar adelante un proyecto de complejidad creciente.

Trabajo real en lugar de pruebas

Remote Labor Index, de Scale AI, toma unas 100 tareas reales de Upwork y comprueba si el resultado de la IA satisfaría a un cliente de verdad. Este benchmark aún no está saturado, porque «satisfacer al cliente» incluye mil matices imposibles de formalizar.

Infraestructura ya existente

En lugar de crear pruebas nuevas, se pueden usar sistemas de evaluación que ya funcionan: conferencias científicas (enviar un artículo escrito por IA a revisión por pares), concursos literarios, certificaciones profesionales. Un modelo que recibe una reseña positiva en NeurIPS demuestra más que cualquier prueba automática.

Elegir IA por el resultado y no por el ranking es una habilidad. 9 tareas con modelos reales, gratis, en 30 minutos.

Sin pago requerido • Notificación al lanzamiento

Unirse a la lista

Qué significa esto para elegir una herramienta de IA

Si los benchmarks pierden capacidad predictiva, ¿cómo debería decidir un manager?

El enfoque más directo es probar con tareas concretas de tu equipo, no con tareas abstractas. Tres a cinco escenarios típicos, pasados por dos o tres modelos, dirán más que una tabla con veinte benchmarks. Describimos este método en detalle en la investigación de 54 modelos. Si te parece que un modelo económico no rinde, comprueba antes si el problema no está en el modelo, sino en la calidad del prompt: unas instrucciones bien estructuradas suelen compensar la diferencia de tamaño del modelo.

Conviene mirar la «calidad por dólar» y no el puntaje absoluto. Kimi K2.5 ofrece el 99% de la calidad de GPT-5.2 Pro por el 1,4% del precio. Ningún benchmark lo muestra: solo una comparación directa con tus tareas.

Es útil separar las tareas por dificultad. La estrategia 80/20 – la rutina al modelo económico, las tareas críticas al premium – reduce el gasto un 79% con una pérdida del 11% de calidad. Qué cuenta como tarea «de rutina» en tu contexto es algo que solo decides tú.

De todos los sistemas de evaluación, Chatbot Arena y Remote Labor Index son los más cercanos al uso real. Arena muestra las preferencias de las personas; Remote Labor Index, la satisfacción de los clientes.

Los benchmarks no mueren – maduran

La conclusión de Epoch AI no es que los benchmarks sean inútiles. Siguen captando los saltos de capacidad – el momento en que un modelo «aprende» algo nuevo. Pero su papel cambia: de único criterio de elección a una señal más entre varias.

Para el manager, esto significa el fin de una ilusión cómoda. Ya no basta con mirar una tabla y decir: «Este modelo es mejor, lo elegimos». Hay que entender qué estás midiendo exactamente, por qué y cómo se relaciona ese resultado con tus tareas.

La diferencia entre «el modelo sacó un 92% en GPQA» y «el modelo le ahorró a nuestro equipo 12 horas a la semana» es la diferencia entre el benchmark y la realidad. Saber traducir lo primero en lo segundo es una de las habilidades clave para un manager en 2026.

Especialización

De los rankings a los resultados reales

Curso MySummit: Foundation sobre pensamiento crítico con IA y un track para managers. Aprende a evaluar modelos por tareas, no por benchmarks.

От pre-mortem до антикризисного плана

Переиспользуемые промпт-шаблоны

Сквозной кейс на реальном проекте

~300 часов экономии в год

Ver el programa del curso ->

El problema: los benchmarks se saturan más rápido de lo que se crean

La brecha entre los puntajes y el valor de negocio

Tres categorías de evaluación – y por qué importan