GLM-5 de Z.ai en 2026 : le modèle chinois qui se fait passer pour Claude

Le 6 février 2026, un modèle anonyme baptisé « Pony Alpha » est apparu sur la plateforme OpenRouter – gratuit, sans aucune indication sur ses créateurs. La communauté IA s’est immédiatement lancée dans son identification. Ses capacités en programmation rivalisaient avec Claude Opus 4.5. À la question « qui es-tu ? », le modèle répondait : « Je suis GLM ». Mais lorsqu’on lui a demandé de créer une page web se présentant – il a écrit : « I am Claude, created by Anthropic ».

Ce comportement était reproductible à 100 %. Et c’est précisément ce détail qui définit tout ce qu’il faut savoir sur GLM-5 avant de passer aux benchmarks et aux tarifs.

Essayez par vous-même : GLM-5 vs GigaChat vs Claude

Avant de plonger dans l’histoire, les benchmarks et les tarifs – lancez le prompt directement ici et comparez trois modèles sur une même tâche : GLM-5 (Z.ai), GigaChat-2-Max (Sber) et Claude Sonnet 4.6 (Anthropic). Trois approches radicalement différentes : le challenger chinois à bas coût, le modèle russe « domestique » avec une connaissance fine du contexte local, et le flagship premium occidental.

Exemple 1. Une lettre délicate à un fournisseur

Essayez vous-même

Communication B2B - garder la relation apres un appel d'offres perdu

Vous

Tu es directrice ou directeur des achats dans une entreprise de distribution B2B. Rédige une lettre (180 mots maximum) à un fournisseur d'emballages avec qui vous travaillez depuis 6 ans, pour lui annoncer qu'à l'issue d'un appel d'offres, vous passez temporairement à un autre prestataire pour des raisons de prix. La lettre doit : préserver la relation, nommer honnêtement la cause sans langue de bois, laisser la porte ouverte à une collaboration future et ne pas froisser le partenaire. Le ton doit être respectueux, humain, sans formules administratives figées.

Comparaison :

glm-5 · GigaChat-2-Max · claude-sonnet-4-6

Cette tâche teste simultanément la langue, le sens du ton et l’étiquette professionnelle. GigaChat est généralement plus solide sur les tournures formelles et la stylistique locale russophone, Claude excelle dans l’équilibre entre empathie et clarté, et GLM-5 sert d’indicateur : jusqu’où un modèle chinois arrive-t-il à produire une lettre d’affaires nuancée ? Plus bas dans l’article – un second prompt sur une tâche analytique, où les forces de chaque modèle se répartissent différemment.

Qu’est-ce que GLM-5 et qui est derrière ?

Zhipu AI – spin-off de l’Université Tsinghua, fondée en 2019, renommée Z.ai en 2025 et entrée en bourse à Hong Kong en janvier 2026. L’introduction en bourse a été remarquable : dans les trois jours suivant l’annonce officielle de GLM-5, l’action a bondi de 60 %.

GLM-5 est sorti le 11 février 2026 et prétend d’emblée au titre de modèle open source le plus performant au monde. Pour un manager, trois points essentiels :

Le modèle est gratuit et ouvert – le code est disponible sous licence MIT, n’importe quelle entreprise peut le télécharger et l’exécuter sur ses propres serveurs
Il traite jusqu’à ~400 pages de texte par requête – idéal pour les documents longs, rapports, contrats
Il a été entraîné entièrement sur des puces chinoises Huawei – sans aucun composant NVIDIA

Ce dernier point n’est pas qu’un détail technique. Dans le contexte des restrictions américaines à l’exportation, c’est une déclaration politique : la Chine est capable de créer des modèles IA compétitifs sans accès aux puces occidentales. Pour les entreprises, cela signifie que le fournisseur n’est pas soumis aux sanctions occidentales – contrairement à OpenAI ou Anthropic.

GLM-5.2 : une nouvelle génération (13 juin 2026)

Pendant que nous décortiquions GLM-5, Z.ai a sorti la version suivante. GLM-5.2 est sortie le 13 juin 2026, taillée pour la programmation.

Contexte d'1 million de tokens (contre 200K auparavant) – le modèle garde en mémoire un dépôt entier sans perdre le fil.
Architecture MoE de 744 milliards de paramètres, dont seulement 40 milliards actifs par token – d’où l’alliance de la puissance et d’un coût modéré.
Poids ouverts sous licence MIT et deux niveaux de raisonnement – High et Max (Max pour les tâches complexes en plusieurs étapes).
Distribuée via les forfaits GLM Coding Plan (à partir de ~18 $/mois), une API dédiée et le chat web.

Fidèle à l’histoire de GLM, Z.ai n’a publié aucun benchmark au lancement. Dans un secteur où les modèles arrivent d’ordinaire avec leur tableau de victoires, c’est inhabituel. Les tests indépendants sont apparus quelques jours plus tard, et ils sont solides sur le code : sur SWE-bench Pro, GLM-5.2 obtient 62,1 % contre 58,6 % pour GPT-5.5, se classe 2e parmi les modèles de code sur le classement à l’aveugle Code Arena et talonne Claude Opus 4.8 sur Terminal-Bench – pour un coût environ 6 fois inférieur à GPT-5.5.

Cette force a un prix en tokens. Sur le propre graphique de Z.ai consacré à la programmation agentique, au niveau de raisonnement Max, GLM-5.2 rattrape presque Opus 4.8, mais consomme environ deux fois plus de tokens de sortie et reste malgré tout légèrement derrière au sommet. Moins cher par token – mais plus de tokens consommés.

Performance en programmation agentique selon le niveau d’effort

Programmation agentique : score et coût en tokens selon le niveau d’effort. Source : Z.ai

Un mot sur sa façon de planifier. Dans nos tests de planification, elle tranchait elle-même les questions laissées ouvertes et expliquait ses choix, au lieu de les renvoyer au développeur. Exemple : non seulement elle mettait en cache la requête concernant un flag inexistant, mais elle repérait aussi le piège peu évident – ce cache devra être vidé si le flag est créé plus tard. La valeur d’un plan se mesure au nombre de questions réglées avant le début du travail, et sur ce point GLM-5.2 est forte.

Pour les managers : GLM-5.2 est avant tout un outil de développement et de planification d’ingénierie. Sur les tâches de code et la conception de solutions techniques, elle rivalise avec les flagships à un coût nettement moindre. Son comportement sur les tâches métier est une autre histoire – juste en dessous.

L’affaire Pony Alpha : une enquête sans conclusion

« Pony » fait référence à l’année du Cheval dans le calendrier chinois. Le 11 février, Zhipu a officiellement confirmé que Pony Alpha était GLM-5. L’action de l’entreprise a bondi de 60 % en trois jours.

Évolution du cours de l’action depuis le lancement

La question de ce qui s’est réellement passé n’a jamais reçu de réponse officielle. Zhipu n’a pas commenté la confusion d’identité.

Ce n’est pas un cas isolé. En décembre 2025, des chercheurs du MIT ont constaté que dans environ 50 % des cas, les modèles de la série GLM s’identifiaient comme Claude lorsqu’on utilisait des méthodes de requête non standard. DeepSeek V3 présentait une particularité similaire – sous certains prompts, il se présentait comme ChatGPT ou GPT-4. OpenAI a directement accusé DeepSeek de distillation à partir de ses modèles et a mis à jour ses conditions d’utilisation. Anthropic, Mistral et xAI ont suivi avec des clauses anti-distillation similaires.

La distillation – entraîner un modèle plus petit sur les résultats d’un modèle plus grand – est, de toute évidence, un secret de Polichinelle dans l’industrie. Confirmer son utilisation dans GLM-5 est impossible : nous ne disposons d’aucun audit technique. L’infirmer aussi : les schémas de comportement sont trop spécifiques.

Cela soulève une question : si le modèle « se faisait passer » pour Claude lors de requêtes détournées – qu’a-t-il exactement assimilé durant son entraînement ? Et dans quelle mesure cela importe-t-il pour un manager qui cherche un outil opérationnel ?

Ce que montrent les tests

Sur les benchmarks industriels standard, GLM-5 rivalise avec les meilleurs modèles propriétaires – et pour un modèle gratuit et open source, c’est loin d’être anodin. Voici ce qui compte pour un manager :

Programmation – résout 77,8 % des tâches réelles issues de GitHub. À titre de comparaison : Claude Opus 4.5 – 80,9 %, GPT-5.2 – 75,4 %. L’écart avec les leaders est minimal.

Simulation d’entreprise (Vending Bench 2 – un test où le modèle « gère une entreprise » pendant un an) – GLM-5 a terminé avec un solde de 4 432 $, Claude Opus 4.5 – 4 967 $. Le modèle prend des décisions stratégiques à un niveau comparable aux meilleurs concurrents occidentaux.

Recherche web – première place parmi tous les modèles testés, y compris GPT-5.2 et Claude.

Hallucinations – meilleur résultat de l’industrie. GLM-5 préfère dire « je ne sais pas » plutôt qu’inventer une réponse. Pour le travail avec des faits et des chiffres, c’est crucial.

Comme toujours, les tests et l’utilisation réelle sont deux choses différentes. Mais la tendance est claire : GLM-5 joue dans la même ligue que ChatGPT et Claude.

Comment GLM-5 s’est comporté dans nos tests

Dans le cadre de notre comparatif, nous avons testé GLM-5 sur des tâches managériales réelles réparties en 8 catégories.

Résultat global : partie supérieure du milieu de tableau – une performance solide, sans pour autant atteindre l’élite. Mais le diable est dans les détails.

Là où GLM-5 a surpris :

Gestion d’équipe – l’un des meilleurs résultats parmi tous les modèles. GLM-5 s’est montré particulièrement performant pour l’évaluation des collaborateurs, la conception de systèmes de motivation, le feedback et la résolution de conflits
Formation et développement – au-dessus de la moyenne
Communication professionnelle – dans la moyenne

Là où il a échoué :

Normes professionnelles françaises et européennes – nettement plus faible. Le modèle a obtenu des scores inférieurs sur les tâches nécessitant une connaissance des pratiques commerciales françaises et européennes
Recherche et analyse d’information – en dessous de la moyenne
Résolution de problèmes – parmi les résultats les plus faibles

Pour un manager, la conclusion est pragmatique : GLM-5 est l’un des meilleurs outils pour les tâches liées aux personnes. Si vous rédigez une évaluation de performance, concevez un système de KPI ou préparez un entretien avec un collaborateur – ce modèle mérite votre attention. Si vous avez besoin de comprendre des spécificités commerciales locales ou de trouver des informations actualisées – le résultat sera moins convaincant.

Interface de réflexion amusante, qui suggère qu’il a été conçu d’abord pour les développeurs

Comment utiliser GLM-5 dès maintenant

chat.z.ai – l’interface web officielle, accessible mondialement. Connexion via un compte Google. L’interface est en anglais et en chinois – pas de version française – mais le modèle comprend le français et peut répondre en français.

Deux modes de fonctionnement :

Chat Mode – le format de dialogue classique. Convient à la plupart des tâches : rédaction de textes, analyse de documents, réponses aux questions.

Agent Mode – c’est ici que GLM-5 révèle tout son potentiel. Le modèle peut utiliser des outils : générer des fichiers .docx, .pdf, .xlsx, effectuer des recherches web, exécuter des tâches en plusieurs étapes. Si vous demandez un rapport avec des tableaux – c’est le mode qu’il vous faut.

Recommandation pratique concernant la langue : la qualité des réponses en anglais est sensiblement supérieure à celle en français. Le français est partiellement supporté par GLM-5 – le modèle peut répondre en français, mais la qualité est inconstante. Attendez-vous à des erreurs grammaticales, des tournures maladroites et des anglicismes occasionnels. Pour une analyse complexe, utilisez des prompts en anglais. Le support du français est meilleur que celui de l’estonien mais nettement en retrait par rapport à l’anglais. À titre de comparaison : Claude et ChatGPT gèrent le français de manière bien plus naturelle. C’est la même situation qu’avec Qwen : les modèles chinois fonctionnent mieux dans les langues sur lesquelles ils ont été le plus entraînés.

La semaine suivant le lancement de GLM-5 a été mouvementée : le trafic a été multiplié par 10, le service a connu des instabilités pendant plusieurs jours, et Zhipu a présenté des excuses publiques. À la mi-mars, la situation s’est normalisée, mais il faut garder à l’esprit que c’est un service jeune avec une charge en croissance rapide.

Exemple 2. Pre-mortem avant le lancement d’un nouveau produit

Deuxième tâche : analytique. C’est traditionnellement le terrain de prédilection de Claude, et pour GLM-5 c’est un test honnête – un modèle chinois à bas coût est-il capable de produire un raisonnement structuré au niveau d’un flagship ? Pour GigaChat, c’est l’occasion de montrer comment il traite un contexte de marché.

Essayez vous-même

Analyse strategique - pre-mortem de lancement produit

Vous

Tu es product manager. L'équipe prépare le lancement d'une application mobile pour les travailleurs indépendants et freelances : suivi des revenus, calcul automatique des impôts et cotisations, intégration bancaire. Le lancement est prévu dans 6 semaines. Conduis un pre-mortem : imagine que 3 mois après le lancement, le produit a échoué. Identifie 6 à 8 causes d'échec les plus probables, regroupe-les par catégories (produit, marché, opérations, risques juridiques), et pour chaque cause, indique un signal précoce permettant de la détecter avant le lancement ainsi qu'une action concrète pour réduire le risque.

Comparaison :

glm-5 · GigaChat-2-Max · claude-sonnet-4-6

Observez non seulement le contenu, mais aussi la structure de la réponse : la capacité du modèle à tenir toutes les exigences du prompt (6 à 8 causes, catégories, signaux, actions) – c’est précisément ce qui distingue un outil opérationnel d’une belle démonstration.

Résultats de notre benchmark

Nous avons testé GLM-5 dans notre benchmark indépendant pour managers, couvrant la planification, l’analyse, la gestion d’équipe et d’autres tâches professionnelles concrètes. Les résultats dressent un portrait nuancé.

GLM-5 se situe dans la partie supérieure du milieu de tableau – compétitif, mais pas parmi l’élite. Son meilleur résultat concerne les tâches de planification, où il se rapproche du sommet, ainsi que l’analyse et la prise de décision, où il tient tête aux alternatives payantes de gamme intermédiaire. Les résultats en gestion d’équipe sont également corrects.

Les points faibles sont nets : la création de contenus de formation – ici GLM-5 se retrouve nettement en retrait par rapport aux leaders – et la connaissance des contextes régionaux, où le modèle peine dès qu’on sort du cadre chinois.

Pour les utilisateurs internationaux, GLM-5 mérite d’être considéré comme une alternative gratuite solide aux modèles payants de gamme intermédiaire. Il rivalise confortablement avec Gemini 2.5 Pro et DeepSeek V3.2 sur les tâches analytiques et de planification. En revanche, il reste nettement en dessous des modèles de pointe comme ChatGPT (GPT-5.4), Claude Sonnet 4.5 et Kimi K2.5.

Si vous cherchez un modèle pour produire du contenu pédagogique ou de formation, Claude ou ChatGPT restent les choix les plus sûrs. Mais pour le travail analytique avec un budget serré – GLM-5 est un candidat sérieux parmi les meilleurs modèles chinois open source, aux côtés de DeepSeek et Qwen.

Et GLM-5.2 ? Lors de la session de juin de notre benchmark, la nouvelle version s’est classée 12e sur les tâches métier et s’est révélée la moins chère de tous les modèles classés au-dessus d’elle. Pour un modèle ouvert d’environ 750 milliards de paramètres, c’est notable – l’offre open source dans cette gamme de tailles est restée jusqu’ici clairsemée.

Mais un paradoxe apparaît. Sur les tests de code purs, GLM-5.2 est en tête, alors que sur les tâches métier liées au code, à l’analyse et au marketing (qui exigent un bon anglais), elle faiblit. Le plus difficile reste les tâches « de réflexion » : le modèle laisse systématiquement passer des détails du texte ou en tire des conclusions injustifiées. Elle respecte le format proprement, donc elle s’intègre sans surprise à d’autres systèmes – mais il faut surveiller ses conclusions. Sa force : le raisonnement d’ingénierie (code, plans techniques, décomposition). Sa faiblesse : le raisonnement « sur papier », où il faut saisir un sens subtil dans un texte ordinaire.

Tous les résultats interactifs →

Limites et risques

La censure chinoise fonctionne de manière prévisible : les sujets politiquement sensibles, la critique historique de l’État, certains événements – tout cela est bloqué. Pour un manager, c’est rarement un problème en pratique, mais il est utile de le savoir.

Qualité en français – l’une des faiblesses majeures. La qualité est inconstante : le modèle répond en français mais avec des problèmes de grammaire notables et des formulations peu naturelles. Pour un usage professionnel, les prompts en anglais sont recommandés. Contrairement à DeepSeek, qui gère mieux les langues européennes dans des contextes d’affaires, GLM-5 perd sensiblement en précision et en nuance sur des tâches en français. Nos tests l’ont confirmé.

Vitesse de réponse en mode d’analyse approfondie nettement inférieure à Claude et GPT – environ 30 à 40 % plus lente. Pas critique pour des tâches ponctuelles, mais perceptible lors d’un travail intensif.

La question de la distillation reste ouverte. Cela ne signifie pas que le modèle est techniquement peu fiable – il fonctionne. Mais pour les organisations qui utilisent Claude et se soucient de l’éthique de l’utilisation de l’IA, ce fait mérite d’être pris en compte.

Déploiement sur ses propres serveurs – techniquement possible (le code est ouvert), mais nécessite du matériel serveur dont le coût se chiffre en dizaines de milliers d’euros. Contrairement aux modèles compacts de Qwen, GLM-5 ne peut pas être déployé par un simple département informatique.

Pas d’application mobile – uniquement le web.

Tarifs

Option	Coût	Pour qui
chat.z.ai	Gratuit (avec limites)	Essayer sans engagement
API via OpenRouter	~0,15 $ pour l’analyse d’un rapport de 100 pages	Intégration dans les processus de travail

À titre de comparaison : la même analyse via Claude Opus 4.5 coûterait environ 3 $, via GPT-5.2 – environ 1,50 $. GLM-5 est 20 fois moins cher pour des capacités comparables sur de nombreuses tâches.

Cela dit, parmi les modèles chinois open source, GLM-5 est le plus cher. DeepSeek et Qwen coûtent encore 3 à 5 fois moins. Pourquoi payer plus ? Pour les meilleurs résultats en gestion d’équipe et en recherche web – si ce sont vos priorités, la différence se justifie.

Un détail important : après le lancement de GLM-5, Zhipu a augmenté les prix du plan Pro d’environ 30 %, ce qui a provoqué le mécontentement des utilisateurs.

Faut-il l’essayer ?

GLM-5 est un modèle avec des forces réelles et des faiblesses réelles, enveloppé dans une histoire qui n’a toujours pas reçu de réponse définitive.

Le résultat impressionnant en gestion d’équipe – l’un des meilleurs parmi tous les modèles que nous avons testés – est réel et reproductible. Si vous travaillez régulièrement sur des tâches liées aux RH et au management : évaluations de performance, conception de systèmes de motivation, feedback, résolution de conflits – GLM-5 mérite d’être essayé.

Si vous avez besoin d’un modèle pour travailler dans un contexte francophone, rechercher des informations actualisées ou traiter des tâches avec une forte spécificité locale – GLM-5 est en retrait face à la concurrence. Pour ces besoins, DeepSeek ou Claude feront mieux le travail.

L’affaire Pony Alpha et l’identification comme Claude ne sont pas une raison de rejeter l’outil, mais une raison de garder une distance analytique. L’industrie évolue depuis longtemps dans une zone grise où la frontière entre « inspiration » et « distillation » est volontairement floue. Ce n’est pas une exception pour GLM-5 – c’est le tableau d’ensemble qu’il est honnête de garder en tête.

L’accès est simple : chat.z.ai est accessible mondialement, connexion via Google, un niveau gratuit existe. Cela vaut la peine de consacrer une heure aux tests – et de se forger sa propre opinion.

Bientôt disponible

Analysez GLM-5 et d'autres outils IA en pratique

9 leçons diagnostiques : essayez GLM-5 et d'autres modèles sur des tâches réelles – et découvrez quelles erreurs commettent la plupart des managers. Sans inscription.

Analyse approfondie des outils avec des exemples

Prompts prêts à l'emploi pour les tâches courantes

Compétences pour une utilisation sûre de l'IA

Comment mesurer le ROI de l'IA

Ouvrir le module gratuit →

Aucun paiement requis

Continuez votre apprentissage

Ouvrez le manuel et reprenez là où vous vous êtes arrêté

Ouvrir le manuel

Essayez par vous-même : GLM-5 vs GigaChat vs Claude

Exemple 1. Une lettre délicate à un fournisseur

Qu’est-ce que GLM-5 et qui est derrière ?

GLM-5.2 : une nouvelle génération (13 juin 2026)

L’affaire Pony Alpha : une enquête sans conclusion

Ce que montrent les tests

Comment GLM-5 s’est comporté dans nos tests

Comment utiliser GLM-5 dès maintenant

Exemple 2. Pre-mortem avant le lancement d’un nouveau produit

Résultats de notre benchmark

Limites et risques

Tarifs

Faut-il l’essayer ?

Analysez GLM-5 et d'autres outils IA en pratique

Continuez votre apprentissage

Stanislav Belyaev

Essentiels

Analytiques

Fonctionnels

Marketing

Essayez par vous-même : GLM-5 vs GigaChat vs Claude

Exemple 1. Une lettre délicate à un fournisseur

Qu’est-ce que GLM-5 et qui est derrière ?

GLM-5.2 : une nouvelle génération (13 juin 2026)

L’affaire Pony Alpha : une enquête sans conclusion

Ce que montrent les tests

Comment GLM-5 s’est comporté dans nos tests

Comment utiliser GLM-5 dès maintenant

Exemple 2. Pre-mortem avant le lancement d’un nouveau produit

Résultats de notre benchmark

Limites et risques

Tarifs

Faut-il l’essayer ?

Analysez GLM-5 et d'autres outils IA en pratique

Continuez votre apprentissage

Autres parties de cette série

ChatGPT en 2026 : ce qui a changé et par où commencer pour un manager

Google Gemini en 2026 : modèles, NotebookLM et intégration Workspace

Grok by xAI en 2026 : L'IA d'Elon Musk avec intégration X et Tesla

YandexGPT en 2026 : revue de l'IA russe de Yandex pour les entreprises

DeepSeek en 2026 : le modèle IA le plus rentable du marché

GigaChat en 2026 : revue honnête de l'IA de Sber – utile pour le travail ?

Qwen d'Alibaba en 2026 : IA open source gratuite pour les entreprises

Comment évaluer la qualité des LLM en 2026 : guide des benchmarks pour managers

Kimi de Moonshot en 2026 : K2.6, K2.7-Code et agents pour le manager

Stanislav Belyaev

⚙️ Paramètres des cookies

Essentiels

Analytiques

Fonctionnels

Marketing

Attention

Politique de cookies