Epoch AI

Quand les benchmarks IA perdent leur sens : comment choisir un modèle

7 min de lecture

En mars, nous avons décortiqué le fonctionnement des benchmarks LLM – GPQA Diamond, SWE-bench, Chatbot Arena. En avril, nous avons testé 53 modèles et découvert que l’écart de qualité entre les meilleurs modèles se compte en dixièmes de point, alors que l’écart de prix s’étale sur trois ordres de grandeur.

Vient maintenant la question suivante. Et si les benchmarks eux-mêmes cessaient de fonctionner ?

Lire la suite
Quand les benchmarks IA perdent leur sens : comment choisir un modèle