Kimi K2.5 de Moonshot. Un concurrent sérieux de Claude Sonnet

Un modèle chinois open source peut-il rivaliser avec les fleurons propriétaires d’OpenAI et d’Anthropic ? D’après notre évaluation indépendante – oui. Le 27 janvier 2026, la société pékinoise Moonshot AI a lancé Kimi K2.5, qui s’est immédiatement hissé à la quatrième place mondiale. Devant lui – uniquement Claude Opus 4.5, GPT-5.2 et Gemini 3 Pro. Tous trois propriétaires et payants.
Kimi K2.5 est le premier modèle chinois à intégrer le cluster d’élite aux côtés des meilleurs concurrents occidentaux.

Qui est Moonshot AI
Moonshot AI est une startup pékinoise fondée en 2023 par d’anciens collaborateurs de ByteDance (le créateur de TikTok). L’entreprise est soutenue par Alibaba et HongShan (anciennement Sequoia China). Le fondateur et CEO – Zhilin Yang – est chercheur spécialisé en NLP.
La startup a misé sur deux axes : le contexte long et les capacités agentiques. La première version de Kimi, en 2024, avait attiré l’attention grâce à une fenêtre contextuelle record pour l’époque. K2.5 est la troisième génération, et ces deux axes y convergent.
Ce que sait faire Kimi K2.5
Le modèle compte 1 000 milliards de paramètres, mais utilise une architecture Mixture-of-Experts : à chaque instant, seuls 32 milliards sont actifs. Cela permet de combiner puissance et efficacité – les réponses sont rapides et le coût via API est plusieurs fois inférieur à celui de Claude ou de GPT.
Caractéristiques clés :
- Fenêtre contextuelle de 256K tokens – soit environ 350 à 500 pages de texte par requête
- Multimodalité native – comprend le texte, les images et la vidéo nativement
- Quatre modes de fonctionnement : Instant (réponses rapides), Thinking (analyse approfondie), Agent (tâches autonomes avec outils) et Agent Swarm (travail parallèle de jusqu’à 100 sous-agents)
- Code ouvert – licence MIT, poids disponibles sur HuggingFace
Agent Swarm : la fonctionnalité phare
C’est une approche fondamentalement nouvelle. Au lieu de résoudre une tâche de manière séquentielle, Kimi K2.5 peut la décomposer en sous-tâches et lancer jusqu’à 100 sous-agents spécialisés en parallèle. Chaque sous-agent travaille indépendamment, tandis que l’agent principal coordonne le résultat.

Pourquoi attendre 10 minutes quand on peut diviser la tâche en 100 flux ? En mode Swarm, Kimi K2.5 exécute une requête analytique complexe en 2 à 3 minutes au lieu de 10. Au test BrowseComp (navigation et recherche web), Agent Swarm a obtenu 78,4 % – le meilleur score parmi tous les modèles testés, y compris GPT-5.2.

Par ses capacités, Kimi peut rivaliser notamment avec Notebook LM de Google. Pour les présentations interactives – le résultat est plutôt convaincant au premier abord. Certes, les données datent de l’année dernière.
Pour un manager, c’est pertinent dans des scénarios comme « analyse 10 sites concurrents et produis une synthèse » ou « prépare un rapport à partir de plusieurs sources ».
Ce que montrent les benchmarks
Sur les benchmarks industriels standard, Kimi K2.5 rivalise solidement avec les meilleurs modèles propriétaires :
| Benchmark | Kimi K2.5 | GPT-5.2 | Claude Opus 4.5 | DeepSeek V3.2 |
|---|---|---|---|---|
| HLE avec outils | 50,2 % | 45,5 % | 43,2 % | 40,8 % |
| BrowseComp (Agent Swarm) | 78,4 % | 54,9 % | 24,1 % | 67,6 % |
| SWE-Bench Verified (code) | 76,8 % | 80,0 % | 80,9 % | 73,1 % |
| AIME 2025 (maths) | 96,1 % | 100,0 % | 92,8 % | 93,1 % |
| VideoMMMU (vidéo) | 86,6 % | 85,9 % | 84,4 % | – |
Kimi K2.5 domine en tâches agentiques (recherche, navigation, travail autonome) et en compréhension vidéo. En programmation, il cède face à Claude ; en mathématiques – face à GPT-5.2. Mais il s’agit d’écarts de 3 à 4 points de pourcentage, pas d’un gouffre.
Comme toujours, benchmarks et usage réel – ce sont deux choses différentes. Mais la tendance est claire : Kimi K2.5 joue dans la même ligue que les fleurons.
Performance de Kimi K2.5 dans notre évaluation
Dans le cadre de notre comparatif de 34 modèles sur des tâches managériales réelles, Kimi K2.5 a obtenu la 4e place avec un score de 4,74 sur 5,0 – et est devenu le seul modèle chinois dans le cluster d’élite.
Pour contexte : le cluster d’élite ne compte que trois modèles en dehors de Kimi – Claude Opus 4.5 (4,81), Claude Sonnet 4.5 (4,78) et GPT-5.2 (4,76). Kimi K2.5 a rejoint ce cercle.
Points forts de Kimi K2.5 :
- Recherche d’information – 2e place tous modèles confondus (4,643)
- Formation et développement – 4e place (4,720)
- Communication – 4e place (4,653)
- Analyse et prise de décision – 4e place (4,779)
Et le plus remarquable – la régularité. Kimi K2.5 affiche la plus faible dispersion de scores entre catégories : l’écart entre le meilleur et le pire résultat n’est que de 0,13 point. Chez la plupart des modèles, cet indicateur est 2 à 3 fois plus élevé. Autrement dit, Kimi K2.5 est tout aussi fiable quel que soit le type de tâche.
Kimi K2.5 face aux autres modèles chinois
Pour un manager qui choisit parmi les outils disponibles, la comparaison au sein du « groupe chinois » importe davantage qu’une compétition abstraite avec Claude.
| Modèle | Notre score | Place | Point fort | Accès chat | Coût |
|---|---|---|---|---|---|
| Kimi K2.5 | 4,74 | #4 | Polyvalence, recherche | kimi.com | Gratuit / 18–185 €/mois |
| Qwen3.5 Plus | 4,56 | #8 | Planification | chat.qwen.ai | Gratuit (API uniquement) |
| Qwen3.5 397B | 4,55 | #9 | Analyse et décisions | chat.qwen.ai | Gratuit (API uniquement) |
| GLM-5 (Z.ai) | 4,50 | #10 | Management d’équipe (#1) | chat.z.ai | Gratuit (API uniquement) |
| DeepSeek V3.2 | 4,42 | #13 | Rapport qualité-prix | chat.deepseek.com | Gratuit (API uniquement) |
| Qwen3 Max | 4,42 | #14 | Raisonnement | chat.qwen.ai | Gratuit (API uniquement) |
| DeepSeek R1 | 4,33 | #17 | Analytique | chat.deepseek.com | Gratuit (API uniquement) |
Conclusions du tableau :
Kimi K2.5 est le meilleur modèle chinois en termes globaux. L’écart avec le concurrent le plus proche (Qwen3.5 Plus) est de 0,18 point – c’est significatif à un niveau général supérieur à 4,5.
Mais il n’est pas le meilleur dans chaque catégorie. GLM-5 reste n°1 en management d’équipe. DeepSeek V3.2 offre le meilleur rapport qualité-prix parmi les modèles chinois. Qwen3.5 Plus est plus performant en planification.
En termes d’accessibilité, Kimi se distingue. C’est le seul modèle du top 4 mondial disposant d’un chat gratuit. DeepSeek et GLM-5 sont aussi gratuits, mais de qualité inférieure. Les plans payants de Kimi (18–185 €/mois) débloquent des capacités agentiques que les concurrents ne proposent tout simplement pas dans leur interface de chat.
Comment accéder à Kimi K2.5
Interface web : kimi.com
Le site kimi.com est accessible depuis l’Europe sans restriction. Connexion via compte Google – c’est la méthode la plus simple et la plus rapide.
L’interface est disponible en anglais et en chinois uniquement – pas de version française. Mais le modèle comprend le français et répond en français. La qualité des réponses en français est toutefois inférieure à celle en anglais (comme pour tous les modèles chinois), mais suffisante pour la majorité des cas d’usage.

Trois modes de fonctionnement principaux :
- Instant – réponses rapides pour les tâches quotidiennes : correspondance, réponses aux questions, travail sur documents
- Thinking – analyse approfondie avec « chaîne de raisonnement », le modèle montre son processus de réflexion
- Agent – exécution autonome de tâches : génération de documents (.docx, .pdf, .xlsx), recherche web, opérations multi-étapes. Si vous demandez un rapport avec tableaux – c’est précisément ce mode
Note RGPD : Kimi K2.5 est un service de la société chinoise Moonshot AI. Les données transmises peuvent être traitées sur des serveurs hors de l’UE. Pour un usage professionnel impliquant des données sensibles ou personnelles, vérifiez la conformité avec la politique de protection des données de votre organisation. Pour des tâches générales d’analyse, de rédaction ou de recherche – le risque est comparable à celui des autres services IA cloud.
Applications mobiles
Kimi est disponible sur iOS et Android. Les fonctionnalités sont identiques à la version web, y compris tous les modes de fonctionnement.
Accès API
L’API Moonshot est accessible directement depuis l’Europe. Kimi K2.5 est également disponible via des agrégateurs comme OpenRouter, ce qui simplifie l’intégration et la facturation.
Tarifs et abonnements
Niveau gratuit (Adagio)
- Requêtes textuelles illimitées en modes Instant et Thinking
- Jusqu’à 3 requêtes par mois aux agents (documents, tableaux, présentations)
- 1 requête Deep Research par mois
- File d’attente aux heures de pointe
Le niveau gratuit suffit pour tester le modèle et déterminer s’il convient à vos besoins. Pour un usage quotidien – c’est trop limité.
Plans payants
| Plan | Prix | Ce qu’il offre |
|---|---|---|
| Moderato | ~18 €/mois ($19) | Plus de requêtes agentiques, priorité, génération de présentations |
| Allegretto | ~36 €/mois ($39) | Limites encore plus élevées, multitâche des agents, accès à Kimi Claw |
| Vivace | ~185 €/mois ($199) | Agents illimités, vitesse maximale, contexte étendu |
La tarification est en USD, payable par carte bancaire internationale (Visa, Mastercard). Les prix en euros ci-dessus sont indicatifs.
Coût via API
| Option | Tokens en entrée | Tokens en sortie | ~Coût d’analyse d’un rapport de 100 pages |
|---|---|---|---|
| Moonshot API (direct) | $0,60 / 1M | $3,00 / 1M | ~$0,50 |
| OpenRouter | $0,45 / 1M | $2,20 / 1M | ~$0,35 |
Pour comparaison : Claude Opus 4.5 pour une tâche équivalente – environ $3, GPT-5.2 – $1,50. Kimi K2.5 est 6 à 8 fois moins cher que Claude.
Mais parmi les modèles chinois, Kimi n’est pas le plus économique. DeepSeek V3.2 coûte 3 fois moins, Qwen3.5 Plus – 1,5 fois moins.
Limites et risques
Qualité linguistique en français – faiblesse prévisible. Comme GLM-5, Kimi K2.5 fonctionne nettement mieux en anglais et en chinois. En français, le modèle se débrouille, mais avec une perte de nuances. Si la tâche le permet – formulez vos prompts en anglais.
Vitesse de réponse – Agent Swarm est rapide pour les tâches complexes, mais le mode Thinking classique est plus lent que Claude et GPT. Lors d’un test indépendant, le temps de réponse médian de Kimi K2.5 était de 29,2 secondes contre 4,6 pour Claude Sonnet 4.6. Cela fait réfléchir : si Agent Swarm promet la vitesse par le parallélisme, pourquoi le mode classique est-il 6 fois plus lent que la concurrence ? Pour des requêtes ponctuelles, c’est tolérable ; en usage intensif – c’est perceptible.
Censure chinoise – fonctionne comme pour les autres modèles chinois : les sujets politiquement sensibles sont bloqués. Pour des tâches managériales, cela pose rarement problème.
Résidence des données (RGPD) – les données sont traitées sur des serveurs de Moonshot AI, probablement hébergés en Chine. Pour des données à caractère personnel ou confidentiel, évaluez la conformité avec votre politique interne et le RGPD. Privilégiez l’API avec des données anonymisées pour les cas d’usage sensibles.
Taille du modèle – 1 000 milliards de paramètres signifie qu’héberger Kimi K2.5 sur vos propres serveurs est irréaliste pour une entreprise classique. Ce n’est pas Qwen3.5 9B, que l’on peut déployer sur un seul GPU.
Faut-il l’essayer ?
Kimi K2.5 est objectivement le meilleur modèle chinois en mars 2026. Quatrième place mondiale, cluster d’élite, technologie Agent Swarm unique – ce ne sont pas des arguments marketing, mais des résultats de tests indépendants.
Pour un manager, la recommandation dépend du contexte. Si vous avez besoin d’un outil polyvalent avec une recherche performante, de l’analyse et des capacités agentiques – Kimi K2.5 mérite d’être testé. Surtout si vos tâches impliquent de travailler avec plusieurs sources, de préparer des rapports ou de mener des recherches multi-étapes.
Si le prix est votre critère principal – DeepSeek V3.2 reste le choix le plus économique, à un coût trois fois inférieur. Si votre priorité est le management d’équipe, les tâches RH et le feedback – GLM-5 reste n°1 dans cette catégorie.
Fait notable : le modèle chinois le plus performant de mars 2026 n’est pas celui qui a fait le plus de bruit en début d’année. Kimi K2.5 a dépassé DeepSeek et Qwen sans déclarations tapageuses. Cela amène à se demander : dans quelle mesure le battage médiatique est-il un indicateur fiable pour choisir un outil de travail ?
Rendez-vous sur kimi.com, connectez-vous via Google et consacrez une heure aux tests. Le niveau gratuit suffit pour vous forger votre propre opinion.
Nous analysons Kimi K2.5 et d'autres outils IA en pratique
9 leçons diagnostiques : essayez Kimi K2.5 et d'autres modèles sur des tâches réelles – et découvrez les erreurs que commettent la plupart des managers. Sans inscription.
Continuez votre apprentissage
Ouvrez le manuel et reprenez là où vous vous êtes arrêté



