Quand les benchmarks IA perdent leur sens : comment choisir un modèle

En mars, nous avons décortiqué le fonctionnement des benchmarks LLM – GPQA Diamond, SWE-bench, Chatbot Arena. En avril, nous avons testé 53 modèles et découvert que l’écart de qualité entre les meilleurs modèles se compte en dixièmes de point, alors que l’écart de prix s’étale sur trois ordres de grandeur.
Vient maintenant la question suivante. Et si les benchmarks eux-mêmes cessaient de fonctionner ?
Le 1er mai 2026, Epoch AI – l’organisation à l’origine de plusieurs benchmarks majeurs du secteur – a publié une discussion au titre éloquent : « Are AI Benchmarks Doomed ? ». Trois chercheurs – Anson Ho, Greg Burnham et Tom Adamczewski – y analysent pourquoi les tests saturent plus vite qu’on ne parvient à les concevoir, et ce qu’il convient d’y faire.
Reprenons leurs arguments sous l’angle de ce qui importe à un manager.
Le problème : les benchmarks saturent plus vite qu’on ne les crée
Auparavant, un nouveau benchmark vivait des années. MMLU, créé en 2020, est resté pertinent jusqu’en 2024. Aujourd’hui, la situation a changé.
GPQA Diamond – un test où même des experts disposant d’un accès à Internet se trompent dans 60 % des cas – a tenu deux ans. Selon les standards de 2026, c’est exceptionnellement long. GDPVal, développé par OpenAI au prix de plusieurs millions de dollars, est déjà presque saturé. Lorsque, à l’hiver 2025, sont apparus les modèles de raisonnement (o1), ils ont d’un seul coup clos des benchmarks mathématiques que l’on croyait pérennes.
Le schéma est net : plus les modèles progressent vite, plus les tests vivent court.
L’écart entre les scores et la valeur métier
C’est l’observation centrale d’Epoch AI, et elle rejoint nos propres données – ainsi que leur étude sur la faible profondeur d’usage de l’IA : 62 % des utilisateurs n’emploient les modèles que pour une ou deux tâches. La saturation de GPQA Diamond ne s’est pas traduite par un effet économique proportionnel. Des modèles qui dépassent 90 % aux tests d’experts ne sont pas devenus deux fois plus utiles pour les tâches managériales courantes.
La raison : les benchmarks mesurent la part « autosuffisante » du travail. Répondre à une question difficile de physique est une chose. Insérer cette réponse dans le contexte d’un projet, tenir compte des contraintes politiques, l’aligner avec trois parties prenantes et la mettre en forme pour qu’elle passe devant le comité financier en est une autre.
Dans notre test de 53 modèles, nous avons constaté la même chose : l’écart entre un modèle à 0,17 € et un autre à 0,002 € par requête se réduisait à 0,24 point sur une échelle de cinq. Les benchmarks affichent un fossé. Les tâches réelles, non.
L’écart entre le score et l’utilité concrète saute aux yeux sur des exemples. Le plus difficile est ailleurs : développer une intuition pratique de ce qu’un modèle sait faire précisément pour vous. Cela ne se lit pas dans un tableau – cela se forge à travers des tâches.
Essayez 9 tâches managériales gratuitement. Votre résultat vous en dira plus sur un modèle que n'importe quel benchmark.
Sans paiement requis • Notification au lancement
Trois catégories d’évaluation – et pourquoi elles comptent
Tom Adamczewski a proposé une classification utile des façons dont on peut, au fond, évaluer les modèles :
| Catégorie | Fonctionnement | Exemple | Limite |
|---|---|---|---|
| Vérification automatique | Un algorithme compare la réponse à une référence | MMLU, FrontierMath | Sature facilement – les modèles apprennent à « passer le test » |
| LLM-juge | Un autre modèle note la réponse selon une grille | Notre test de 54 modèles | Dépend de la qualité du juge |
| Évaluation humaine | Des humains jugent le résultat | Chatbot Arena, Remote Labor Index | Coûteux et lent |
Pour un manager, la conclusion importe : plus l’évaluation se rapproche du travail réel, plus elle est coûteuse et lente – mais aussi plus utile. Les tests automatiques fournissent un chiffre. L’évaluation humaine fournit une compréhension.
C’est précisément pour cela que Chatbot Arena – un classement où des personnes réelles comparent à l’aveugle les réponses – reste la référence la plus fiable. Il est au plus près de la façon dont vous choisissez un outil : « quelle réponse m’a le plus aidé ? »
Ce qui remplace les benchmarks classiques
Epoch AI met en avant plusieurs pistes qui méritent l’attention.
Des familles de tâches à difficulté variable
À la place d’un jeu de questions figé : des tâches à difficulté réglable. Exemple : MirrorCode, projet conjoint d’Epoch AI et de METR. Le modèle doit reproduire un programme en n’observant que son comportement. La difficulté s’échelonne de 100 lignes de code à 100 000 et plus. Les meilleurs modèles ont consacré des milliards de tokens à la réimplémentation d’Apple Pkl (16 000 lignes en C) – sans achever entièrement la tâche.
Pour un manager, l’analogie est limpide : c’est comme tester un collaborateur non sur sa connaissance théorique, mais sur sa capacité à mener un projet de complexité croissante.
Du travail réel plutôt que des tests
Le Remote Labor Index de Scale AI reprend environ 100 tâches réelles issues d’Upwork et vérifie si le résultat de l’IA satisferait un vrai client. Ce benchmark n’est pas encore saturé – car « satisfaire un client » englobe mille nuances impossibles à formaliser.
L’infrastructure existante
Plutôt que de créer de nouveaux tests, on peut s’appuyer sur des systèmes d’évaluation déjà en place : conférences scientifiques (soumettre à la relecture un article rédigé par l’IA), concours littéraires, certifications professionnelles. Un modèle qui obtient une relecture positive à NeurIPS prouve davantage que n’importe quel test automatique.
Choisir une IA sur le résultat plutôt que sur un classement, c'est une compétence. 9 tâches sur de vrais modèles, gratuitement, en 30 minutes.
Sans paiement requis • Notification au lancement
Ce que cela change pour le choix d’un outil IA
Si les benchmarks perdent leur pouvoir prédictif, comment un manager doit-il alors décider ?
L’approche la plus directe consiste à tester sur les tâches concrètes de votre équipe, et non sur des cas abstraits. Trois à cinq scénarios typiques, passés à travers deux ou trois modèles, vous apprendront plus qu’un tableau de vingt benchmarks. Nous avons détaillé cette démarche dans notre étude de 54 modèles. Si un modèle économique vous semble à la peine, vérifiez : le problème ne vient peut-être pas du modèle, mais de la qualité du prompt – des instructions structurées compensent souvent l’écart de taille entre modèles.
Mieux vaut regarder le « rapport qualité-prix » que le score absolu. Kimi K2.5 offre 99 % de la qualité de GPT-5.2 Pro pour 1,4 % du prix. Aucun benchmark ne le révèle – seule une comparaison directe sur vos tâches le fait.
Il est utile de répartir les tâches par difficulté. La stratégie 80/20 – la routine sur un modèle économique, les tâches critiques sur un modèle premium – réduit les coûts de 79 % pour une perte de 11 % de qualité. Ce qui relève de la « routine » dans votre contexte : à vous seul d’en décider.
Parmi tous les systèmes d’évaluation, Chatbot Arena et le Remote Labor Index sont les plus proches de l’usage réel. Arena reflète les préférences des humains, le Remote Labor Index la satisfaction des clients.
Les benchmarks ne meurent pas : ils mûrissent
La conclusion d’Epoch AI n’est pas que les benchmarks seraient inutiles. Ils continuent de capturer les sauts de capacités – le moment où un modèle « apprend » quelque chose de nouveau. Mais leur rôle change : de critère unique de choix, ils deviennent l’un des signaux parmi d’autres.
Pour un manager, cela signe la fin d’une illusion confortable. On ne peut plus se contenter de regarder un tableau et de dire : « Ce modèle est meilleur, on le prend. » Il faut comprendre ce que l’on mesure exactement, pourquoi, et comment le résultat se rapporte à vos tâches.
L’écart entre « le modèle a obtenu 92 % à GPQA » et « le modèle a fait gagner 12 heures par semaine à notre équipe », c’est l’écart entre le benchmark et la réalité. Savoir traduire le premier en second est l’une des compétences clés du manager en 2026.
Des classements aux résultats concrets
La formation MySummit : Foundation sur la pensée critique avec l'IA, et un parcours dédié aux managers. Apprenez à évaluer les modèles sur vos tâches, pas sur les benchmarks.

Stanislav Belyaev
Engineering Leader chez Microsoft18 ans a diriger des equipes d'ingenieurs. Fondateur de mysummit.school. 700+ diplomes chez Yandex Practicum et Stratoplan.
