Tirer le maximum de YandexGPT : ce qui marche et ce qui échoue

15 min de lecture
Stanislav Belyaev
Stanislav Belyaev Engineering Leader chez Microsoft
Tirer le maximum de YandexGPT : ce qui marche et ce qui échoue

En Russie, des millions de personnes utilisent Alice chaque jour – non par choix, mais parce qu’elle est gratuite, intégrée au navigateur Yandex et fonctionne sans VPN. YandexGPT, le modèle qui anime Alice, est le meilleur modèle russe de notre benchmark, mais reste loin derrière GPT-5.4. (Pour un lecteur extérieur : Yandex est le géant russe de la tech, l’équivalent local de Google, et Alice est son assistant conversationnel grand public.)

Peut-on en obtenir des réponses proches de celles de GPT, à condition d’apprendre à bien formuler ses demandes ? Nous l’avons vérifié dans une expérience : dix techniques de prompt, six tâches de management, deux juges LLM indépendants. Réponse courte : oui, c’est possible – mais toutes les techniques ne marchent pas, et certaines aggravent la situation.

Voici des gabarits concrets que vous pouvez copier dans le chat dès maintenant, et les anti-patterns à éviter.

Trois faiblesses de YandexGPT face à GPT-5.4

Avant de proposer des solutions, comprenons ce qui cloche exactement. Nous avons évalué les réponses selon cinq dimensions : exactitude factuelle, exhaustivité, précision des recommandations, honnêteté (le modèle reconnaît-il l’incertitude) et clarté du texte. Voici où YandexGPT perd – et où il gagne.

Il ment avec aplomb. Le principal problème, c’est l’honnêteté. GPT-5.4 signale l’incertitude dans deux réponses sur trois. YandexGPT, dans une sur trois. Les deux autres fois, il livre des informations avec la même assurance – sauf qu’elles sont fausses. L’exactitude factuelle le confirme : 75% des affirmations vérifiables sont correctes chez YandexGPT, contre 87% chez GPT-5.4.

Il oublie l’essentiel. Vous posez une question sur une chute de chiffre d’affaires – vous obtenez un diagnostic et des recommandations. Mais sans hypothèses alternatives, sans la réserve « si les données sont incomplètes », sans section sur les limites. GPT-5.4 ajoute ces blocs de lui-même. YandexGPT non, tant que vous ne le demandez pas explicitement. Le modèle n’est pas paresseux – on ne lui a simplement pas dit que ces sections étaient nécessaires.

Il donne des recommandations moins concrètes. « Envisagez d’optimiser vos processus » au lieu de « réduisez le délai de traitement des retours de 14 à 5 jours en désignant un responsable ». L’écart de précision dans les recommandations est plus faible que sur l’honnêteté – mais bien visible.

En revanche, il écrit mieux. La clarté du texte est la seule dimension où YandexGPT dépasse GPT-5.4. Alice produit un russe propre et bien structuré – et ce n’est pas qu’une impression : nous avons détaillé les points forts du modèle dans notre revue de YandexGPT. Le problème n’a jamais été la façon dont il écrit – mais *ce qu’*il écrit.

Bonne nouvelle : ces trois faiblesses se corrigent par le prompt. Les gabarits ci-dessous ne sont pas de vagues conseils « écrivez mieux ». Chaque élément du gabarit comble un manque précis.

Trois niveaux d’effort : de la minute aux dix minutes

Niveau 1 : le gabarit de réponse (1 minute)

La demande la plus fréquente d’un manager : comprendre une situation et obtenir un plan d’action. Ajoutez à votre question un gabarit de réponse – cinq lignes qui changent tout. Cliquez sur « Exécuter » et comparez les résultats :

Essayez vous-même
Réponse à une réclamation client : YandexGPT vs GPT-5.4
Vous
Un client écrit au support : « Pour la troisième fois ce mois-ci, ma commande arrive avec un emballage abîmé. Les deux fois précédentes, on m'a promis de régler le problème, mais rien n'a changé. Si ça se reproduit, je pars chez un concurrent et je laisse un avis négatif. » Le client est avec nous depuis 2 ans, panier moyen 1 200 €/mois. Comment lui répondre et que faire en interne ? Réponds strictement dans le format suivant : ## Synthèse (2 à 3 phrases) ## Réponse au client (texte prêt à envoyer, au nom du responsable de service) ## Actions internes - Quoi vérifier (concret : numéros de commande, étapes logistiques, photos des dommages) - Qui mobiliser (fonctions et périmètres de responsabilité) - Échéances pour chaque action ## Compensation (options avec montants ou pourcentages) ## Limites et réserves ## Comment éviter que ça se reproduise (changements systémiques, pas ponctuels)
Comparaison :
aliceai-llm · gpt-5.4

La section « Limites et réserves » est la clé. Sans elle, YandexGPT proposera un plan avec assurance, sans prévenir qu’il ignore les détails logistiques ou les clauses du contrat. Avec elle, il commence à signaler là où il n’est pas sûr. Le modèle sait ce qu’il ne sait pas – mais seulement si vous le lui demandez explicitement.

Dans notre expérience, cette astuce battait le prompt naïf dans 76% des cas. Le plus gros gain pour l’effort le plus faible.

Niveau 2 : rôle et contexte (3 à 5 minutes)

Autre tâche : se préparer à une conversation délicate avec un collaborateur. Ici, il faut fixer un rôle et un contexte pour que le modèle ne donne pas de conseils abstraits :

Essayez vous-même
Préparer un entretien individuel : YandexGPT vs GPT-5.4
Vous
Tu es un responsable d'équipe de développement expérimenté, 8 ans en management. Situation : Thomas, développeur, dans l'équipe depuis 1,5 an. Sur les deux derniers sprints, il livre 60% du plan. Avant, c'était stable à 90%+. Ses collègues se plaignent qu'il néglige désormais les revues de code. La semaine dernière, il est arrivé en retard au daily trois fois. Pourtant, la qualité du code n'a pas baissé – ce qu'il fait, il le fait bien. Demain, entretien individuel. Aide-moi à le préparer. Réponds strictement selon le format : ## Hypothèses : ce qui pourrait se passer ## Déroulé de l'entretien (questions concrètes, dans quel ordre) ## Ce qu'il ne faut pas faire pendant cet entretien ## Accords possibles à l'issue ## Limites et réserves
Comparaison :
aliceai-llm · gpt-5.4

Le rôle détermine la profondeur de la réponse – un « responsable expérimenté » donne d’autres conseils qu’un « consultant RH ». Le contexte avec des faits précis (60% du plan, trois retards, qualité maintenue) empêche le modèle de retomber dans les généralités.

Niveau 3 : le gabarit XML (10 minutes)

Troisième tâche : une note d’analyse pour la direction. Ici, les données sont nombreuses, et il faut que le modèle ne perde aucun chiffre :

Essayez vous-même
Note d'analyse : YandexGPT vs GPT-5.4
Vous
<task> Rédiger une note d'analyse pour le directeur, à l'issue du trimestre. </task> <context> Entreprise : boutique en ligne d'électronique, 45 salariés. Marché : électronique grand public, milieu de gamme. Concurrents directs : Fnac, Boulanger. </context> <data> - Chiffre d'affaires T1 : 4,2 M€ (objectif 5,1 M€, -18%) - Trafic du site : +12% vs T4 (budget publicitaire augmenté de 30%) - Panier moyen : passé de 870 € à 620 € (-29%) - Retours : montés de 4% à 11% - NPS : tombé de 47 à 31 - Désabonnement à la newsletter : 8% (norme 3%) - Nouvel entrepôt lancé en février, 40% des commandes y transitent </data> <question>Que s'est-il passé, quelles sont les causes profondes et que faire au T2 ?</question> <output_format> # Résumé pour le directeur (3 phrases) # Diagnostic : ce qui a déraillé ## Cause 1 : [intitulé] - **Fait** : chiffre tiré des données - **Lien** : comment cela a pesé sur le chiffre d'affaires ## Cause 2 : [intitulé] ... # Plan d'action pour le T2 | # | Action | Effet attendu | Responsable | Échéance | # Risques du plan # Ce que nous ignorons (limites de l'analyse) </output_format> <constraints> - Rattache chaque conclusion à un chiffre précis de <data> - Si les données sont insuffisantes pour conclure, indique lesquelles manquent - Note destinée au directeur : sans jargon, avec des chiffres concrets </constraints>
Comparaison :
aliceai-llm · gpt-5.4

Les balises XML créent des frontières de sections sans ambiguïté, que YandexGPT analyse mieux qu’un texte libre. Des travaux de recherche montrent un effet similaire : les structures hybrides apportent un gain disproportionné, justement sur les modèles les moins puissants.

Pour une question rapide, le niveau 1 suffit. Pour une note à la direction, le niveau 3 se justifie.

Ce gabarit fonctionne pour l’analyse d’un chiffre d’affaires. Mais quand la tâche change – préparer des OKR, mener un entretien individuel, vérifier le contrat d’un fournisseur – la structure du prompt change aussi. D’autres sections, d’autres contraintes, un autre rôle. Savoir quels éléments garder et lesquels remplacer, ce n’est plus du copier-coller : c’est une compétence. Dans le module ouvert des Fondamentaux, vous l’exercerez sur neuf tâches de manager différentes.

L'analyse du chiffre d'affaires n'est qu'une tâche parmi neuf. Dans le module ouvert : e-mails, négociations, entretiens individuels, rapports – chacun avec sa propre structure de prompt. Gratuit.

Sans paiement requis • Notification au lancement

Rejoindre la liste

Astuce bonus : l’autocritique

Demandez à YandexGPT de relire sa propre réponse. Ce prompt s’envoie en deuxième message – une fois que le modèle a déjà répondu à votre question :

Relis ta réponse. Trouve 3 points faibles : où tu as manqué de précision, où des erreurs ont pu se glisser, ce que tu as oublié. Puis propose une version améliorée.

Contrairement à certaines études montrant que les petits modèles seraient incapables d’autocritique, sur YandexGPT cela fonctionne. Le modèle ne repère pas d’erreurs factuelles, mais il repère les oublis : « je n’ai pas mentionné les délais, pas donné d’alternatives, pas indiqué les limites ». Ce type de critique ne réclame pas de profondes capacités métacognitives – le modèle compare simplement sa réponse à une idée de ce que serait l’exhaustivité.

Le rapport effort/résultat est moins bon qu’avec un gabarit structuré – il faut une seconde requête, et l’effet est plus modeste. Mais si la réponse est déjà là et que vous voulez l’améliorer, l’astuce fonctionne.

Ce qu’il ne faut pas faire

Ne découpez pas la tâche en trois tours. YandexGPT a une fenêtre de contexte de 8K tokens. Au troisième tour de la conversation, le modèle perd les données du début. Dans notre expérience, c’est la seule technique qui a donné un résultat pire que le prompt naïf. Pour les modèles à grand contexte (Qwen3 Max : 128K), la décomposition fonctionne ; pour YandexGPT, non. Mieux vaut un bon prompt que trois questions simples.

N’écrivez pas EN MAJUSCULES. Conseil populaire sur les blogs : « écris ta consigne EN MAJUSCULES et le modèle obéira ». Dans la plupart des cas, l’effet s’explique par le fait qu’avec les majuscules, l’auteur ajoute aussi des instructions concrètes. Nous avons isolé les majuscules seules – sans consignes supplémentaires. Sur YandexGPT, l’écart avec un texte normal reste au niveau du bruit.

N’agressez pas le modèle. YandexGPT répond littéralement plus mal quand on lui crie dessus. Mécanisme probable : un modèle entraîné sur les retours des utilisateurs associe un ton agressif aux situations où l’utilisateur est mécontent – et bascule en mode excuses au lieu d’analyse. Si quelqu’un dit « j’engueule Alice et elle répond mieux », il y a fort à parier qu’avec les insultes, il ajoute aussi des consignes concrètes. C’est la structure qui aide, pas le ton.

Ne misez pas sur le Chain-of-Thought sans gabarit. « Réfléchis étape par étape » pousse YandexGPT à davantage de réflexion et à moins d’action. L’honnêteté de la réponse augmente, mais la précision des recommandations, presque pas. S’il vous faut un plan d’action, le gabarit structuré est meilleur.

Connaître les anti-patterns, c’est éviter de répéter les erreurs des autres. Mais quand aucun gabarit de l’article ne colle à votre tâche, il faut comprendre comment un prompt est construit pour assembler le vôtre. C’est précisément ce que décortiquent les Fondamentaux : non pas une liste de prompts tout faits, mais la logique selon laquelle on les construit.

Structure du prompt, rôle, persona, sémantique – 9 tâches de management dans le module ouvert. Vous apprendrez à assembler un prompt pour n'importe quelle situation. Gratuit.

Sans paiement requis • Notification au lancement

Rejoindre la liste

Comment nous avons testé

La description complète figure dans l’annonce de l’expérience. Ici, l’essentiel.

Quatre modèles accessibles en Russie sans VPN : GigaChat-Ultra, GigaChat-2-Max, YandexGPT (Alice) et Qwen3 Max. (GigaChat est l’assistant IA de Sber, la plus grande banque russe ; Qwen3 Max vient du chinois Alibaba.) Dix techniques de prompt sur six tâches de management – de l’analyse d’une baisse de chiffre d’affaires à un licenciement selon le droit du travail russe. Chaque combinaison répétée 6 fois. À titre de comparaison, les mêmes tâches ont été traitées par GPT-5.4, Claude Sonnet 4.6 et Kimi K2.5 avec des prompts naïfs.

Évaluation par paires : le juge voit deux réponses (naïf vs amélioré) et choisit la meilleure. Deux juges indépendants (Claude Opus 4.6 et Gemini 3.1 Pro), aveugles à la technique et au modèle. En cas de désaccord, c’est match nul.

Limites : l’évaluation a été faite par des juges LLM, pas par des humains. Toutes les techniques ont été rédigées par un expert du prompt – un manager lambda fera moins bien, et l’effet réel sera plus faible. YandexGPT peut être mis à jour par Yandex à tout moment : les résultats valent pour avril 2026. Tous les prompts et gabarits sont publiés en accès libre.

Et ensuite

Les données sur GigaChat-Ultra, GigaChat-2-Max et Qwen3 Max feront l’objet d’un article distinct – avec une analyse de pourquoi le prompt profite surtout aux modèles de niveau intermédiaire. Et si vous hésitez encore sur l’outil à utiliser, commencez par notre comparaison complète des outils GenAI.

Cet article vous a donné trois gabarits pour une seule tâche. Dans le quotidien d’un manager, les tâches se comptent par dizaines : monter un plan de projet, rédiger un e-mail délicat, désamorcer un conflit d’équipe, vérifier un document juridique. Chacune exige une structure de prompt différente. Copier un gabarit de l’article pour chaque cas ne suffira pas – il faut comprendre comment un prompt est construit et à quoi sert chaque élément.

Fondamentaux

Du gabarit à la compétence

Dans cet article : un gabarit pour une tâche. Dans les Fondamentaux du cours : neuf tâches de manager, chacune avec sa structure de prompt. Vous comprendrez pourquoi un rôle est utile, comment le contexte influence la réponse, quand les balises XML apportent un gain et quand le Chain-of-Thought nuit. Pas une liste de prompts tout faits – mais la compétence d'assembler un prompt pour n'importe quelle situation, sur n'importe quel modèle.

9 tâches de manager : e-mails et négociations et rapports et entretiens individuels
Structure du prompt : rôle et contexte et format de sortie
Pourquoi certaines techniques marchent sur YandexGPT et d'autres non
Pratique sur vos données – sans inscription ni paiement
Stanislav Belyaev

Stanislav Belyaev

Engineering Leader chez Microsoft

18 ans a diriger des equipes d'ingenieurs. Fondateur de mysummit.school. 700+ diplomes chez Yandex Practicum et Stratoplan.