Los benchmarks de IA pierden sentido: ¿cómo elegir un modelo entonces?
En marzo analizamos cómo funcionan los benchmarks de LLM – GPQA Diamond, SWE-bench, Chatbot Arena. En abril probamos 53 modelos y descubrimos que la diferencia de calidad entre los modelos punteros es de décimas de punto, mientras que en precio es de tres órdenes de magnitud.
Ahora, la siguiente pregunta. ¿Y si los propios benchmarks dejan de funcionar?
Leer más