Test de detection de l'IA 2025 : 77% de precision avec 140 participants + passez-le vous-meme

10 min de lecture
Test de detection de l'IA 2025 : 77% de precision avec 140 participants + passez-le vous-meme

Chez mysummit.school, nous avons lance une experience : nous avons cree un test compose de 11 paires de textes, ou il fallait determiner lequel avait ete ecrit par un humain et lequel par une IA. De juin a decembre, 140 personnes l’ont complete jusqu’au bout. Les resultats se sont averes surprenants – tant pour nous que pour les participants.

Note pour les lecteurs francophones : cette experience a ete menee aupres de participants russophones et les textes du quiz etaient en russe. Certains exemples font reference a des plateformes russes – VK (reseau social russe), Bashorg (site d’humour russe) ou Samizdat (plateforme d’auto-publication russe). Neanmoins, les tendances observees sont universelles et s’appliquent a tout type de contenu, quelle que soit la langue.


⚠️ A propos de la qualite des donnees

Apres une analyse approfondie, nous avons exclu des statistiques :

  • Les tentatives incompletes (moins de 11 questions)
  • 21 cas de triche (15%) : des participants refaisaient le test en memorisant les reponses

Echantillon final : 140 parcours honnetes. Les details methodologiques sont en fin d’article.



Les chiffres cles

Resultats du test de detection de contenu IA : 140 participants, precision moyenne de 77%
Statistiques du test : comment les humains distinguent le texte IA du texte humain

140 personnes ont termine le test. Le score moyen est de 77% (8,4 bonnes reponses sur 11). Le temps moyen de completion etait de 9,1 minutes.

77% de bonnes reponses – c’est nettement superieur au hasard (50%), mais encore loin de la perfection. Une reponse sur quatre etait erronee.


Repartition des resultats : qui s’en est sorti comment

Repartition des scores : 31% d’experts, 6% en dessous du hasard
Comment les participants ont identifie le contenu genere par l'IA

Pres d’un tiers des participants (31,4%) ont obtenu 10–11 bonnes reponses – soit 44 personnes sur 140. 54,3% supplementaires ont affiche un bon resultat (7–9 bonnes reponses). Avec une analyse attentive, il est tout a fait possible de distinguer l’IA de l’humain – 86% ont obtenu un score « bon » ou superieur.

Mais il y a un revers : 5,7% des participants (8 personnes) ont devine moins de la moitie – pire que s’ils avaient simplement tire a pile ou face. Cela montre que sans connaitre les signes de base de l’IA, detecter le contenu genere est quasiment impossible.


Quelles questions se sont averees les plus difficiles

C’est la que les choses deviennent vraiment interessantes. Differents types de contenu sont reconnus avec des niveaux de precision tres variables.

Precision de detection par type de contenu : reseaux sociaux 90%, marketing 59%
Quel contenu ChatGPT et Claude redigent-ils le mieux

En tete de la precision – les publications sur VK (reseau social russe) (90%) et le sarcasme (85,7%). Les participants percoivent aisement le langage vivant des histoires personnelles et l’humour subtil, que l’IA maitrise encore mal.

Au milieu du classement – les recettes (80%), les publications sur les reseaux sociaux et Twitter (81–84%), la fiction (75%). Ici, l’IA se rapproche de l’humain, mais les details specifiques et les souvenirs personnels trahissent l’auteur.

En queue de peloton – les articles d’actualite et les commentaires (68–71%) et les textes commerciaux (59,3%). Pour ces derniers, c’est quasiment du pile ou face : le langage d’entreprise est si formalise que l’IA le reproduit parfaitement.


Comment distinguer l’IA de l’humain : les schemas issus du test

En analysant les reponses des participants, nous avons identifie plusieurs indices qui aident a reperer un texte genere par l’IA.

Ce qui trahit l’IA :

  • Des introductions pompeuses. Une recette commence par « un veritable voyage dans le temps, empli d’aromes de cannelle ». Un humain ecrirait simplement a propos de gaufres.

  • Un exces de structure. Des listes claires, des puces, des « Top 5 incontournables » – l’IA adore tout classer et organiser.

  • Un langage marketing. « Game-changers », « avantage concurrentiel », « ne manquez pas cette opportunite » – le vocabulaire typique de l’IA.

  • Des hashtags et des emojis. Publication humaine : « Mes grands-parents. Des gens simples et ordinaires. » Version IA : elle termine avec #amoureternellement #famille 🙈

  • Un texte trop lisse. Aucune hesitation, aucune pause, aucun « bref », aucun « enfin bref » – le texte sonne comme un communique de presse.

Ce qui trahit l’humain :

  • Le concret et les details d’epoque. « 20 unites de compte », « Rendezvous », « ZIL » – l’IA ne connait pas ces nuances ou ne pense pas a les inserer.

  • Des tournures familieres. « Et on n’avait besoin d’aucun Bali », « au diable tout ca » – un langage vivant charge d’emotions.

  • Des souvenirs personnels. « Les gaufres roulees au lait concentre chez ma tante » – une experience concrete, pas une « nostalgie » abstraite.

  • Une structure imparfaite. Un humain peut sauter d’un sujet a l’autre, oublier de finir sa pensee – et c’est normal.


Trois categories de difficulte

Facile a reconnaitre (78–87% de precision)

Publications sur les reseaux sociaux – nos participants distinguent tres bien la difference entre une publication LinkedIn authentique et une generation IA. Particulierement revelateur : la publication sur les livres pour product managers a atteint 87% de precision.

Sarcasme et humour – l’IA gere encore mal l’humour subtil. Un texte humoristique tire de Bashorg (site d’humour russe) a propos de moineaux, de pigeons et d’ouvriers en casques a ete identifie par 81% des participants.

Twitter – les courtes histoires personnelles chargees d’emotion se distinguent facilement de la generation IA.

Difficulte moyenne (68–78% de precision)

Recettes – la recette humaine de stroopwafels avec des souvenirs d’enfance a ete identifiee par 78%. La version IA avec son introduction pompeuse sur un « voyage dans le temps » se trahit.

Actualites technologiques – un vieil article de Cnews de 1998 sur la certification de 1C (logiciel d’entreprise russe) est reconnaissable grace aux details specifiques de l’epoque.

Fiction – paradoxalement, la prose de Samizdat (plateforme d’auto-publication russe) est mieux reconnue (78%) que ce a quoi nous nous attendions.

Difficile a reconnaitre (54–68% de precision)

Avis marketing – seulement 62% de precision. Un avis emotionnel sur un sac a main publie sur irecommend.ru et la version IA avec des emojis sont quasi indiscernables.

Textes commerciauxseulement 54%, pratiquement du hasard. L’annonce d’une table ronde d’une association professionnelle et sa version IA utilisent les memes cliches.


Pourquoi les textes commerciaux sont les plus difficiles

Comparaison entre un texte marketing humain et IA : 59% de precision
Pourquoi le contenu IA en marketing est indiscernable du contenu humain

Les deux textes utilisent les memes modeles : « l’expert partagera son experience », « outils pratiques », « ne manquez pas cette opportunite ». Le langage d’entreprise est tellement standardise que l’IA le reproduit parfaitement.

Conclusion : lorsque le texte humain est d’emblee formalise, l’IA devient indiscernable. Seuls 59% des participants ont reussi a distinguer le texte commercial – c’est pratiquement du pile ou face.


Temps de reponse : reflechir plus longtemps ne signifie pas faire mieux

Graphique : le temps de reponse n’influe pas sur la precision de detection du contenu IA
L'intuition fonctionne mieux qu'une longue analyse pour identifier un texte genere par l'IA

Constat interessant : reflechir plus longtemps ne signifie pas deviner mieux. La vitesse moyenne de reponse est de 41,7 secondes par question, mais il n’y a aucune correlation avec la precision.

En revanche, les questions les plus reussies (publications VK, reseau social russe, 90%) sont resolues rapidement – sans longue hesitation. Les textes commerciaux, au contraire, demandent du temps, mais la precision reste basse (59%).

L’intuition fonctionne mieux qu’une longue analyse – la premiere impression s’avere souvent correcte.


Ce que cela signifie pour les managers

1. Votre intuition fonctionne – mais pas partout

77% de precision globale – c’est nettement superieur au hasard, mais il reste 23% d’erreurs. Certains types de contenu piègent particulierement l’intuition :

  • Textes commerciaux (59%) – pratiquement du pile ou face
  • Commentaires (66%) – l’IA imite bien le style conversationnel
  • Articles d’actualite (68–71%) – le style formel se reproduit facilement

2. Plus le texte est formalise, plus il est difficile de detecter l’IA

Si le texte humain original utilise des cliches et des formulations standard, l’IA le reproduit parfaitement. Impossible de les distinguer.

Enseignement pratique : evaluez le contenu sur le fond, pas sur son aspect « humain ».

3. Les decisions rapides ne sont pas moins bonnes que les lentes

Les donnees montrent que la reflexion prolongee n’ameliore pas la precision (vitesse moyenne de 41,7 secondes par question). Fiez-vous a votre premiere impression, surtout pour les reseaux sociaux et les histoires personnelles – c’est la que l’intuition fonctionne le mieux.


Passez le test vous-meme

Nous continuons a collecter des donnees. Testez votre intuition et comparez votre resultat a la moyenne.

Ce que vous obtiendrez :

  • 11 manches avec des paires de textes
  • Un resultat instantane avec des explications
  • Votre percentile – comment vous vous situez par rapport aux autres

Passer le test « Humain ou IA » →


Conclusions

  1. 77% de precision moyenne parmi ceux qui ont termine le test – les humains detectent l’IA nettement mieux que le hasard, mais 23% d’erreurs persistent
  2. 31% des participants sont des experts (10–11 bonnes reponses), 86% ont obtenu un score « bon » ou superieur
  3. Les textes commerciaux – la categorie la plus difficile (59%), l’IA et les humains ecrivent de maniere tout aussi formatee
  4. Reseaux sociaux et sarcasme – les plus faciles (85–90%), l’IA gere encore mal le langage vivant et l’humour
  5. Le temps n’influe pas sur la precision – les reponses intuitives rapides fonctionnent aussi bien que les longues reflexions (temps moyen : 41,7 sec/question)

Methodologie et nettoyage des donnees

Ce que nous avons decouvert lors de l’analyse

Lors de la collecte des donnees, nous avons rencontre des problemes de qualite :

  • De nombreux participants n’ont pas termine le test (moins de 11 questions)
  • 21 cas de triche (15% des parcours valides) – des utilisateurs refaisaient le test plusieurs fois en memorisant les bonnes reponses

Comment nous avons nettoye les donnees

Exclusion des tentatives incompletes :

  • Participants ayant repondu a moins de 11 questions
  • Cela faussait les statistiques en melangeant ceux qui avaient abandonne avec ceux qui avaient termine

Correction des tentatives frauduleuses :

  • Detectees par correspondance adresse IP + User Agent
  • Schema typique : 0–3 reponses → abandon → nouvelle tentative → 11 reponses avec haute precision
  • Pour ces cas, seules les reponses correctes uniques ont ete comptees sur l’ensemble des tentatives
  • Si la question n°3 etait fausse lors de la premiere tentative mais correcte lors de la deuxieme – elle etait comptee comme fausse (la reponse etait connue d’avance)

Le pire cas de triche :

  • Un participant : 11 tentatives (9 abandonnees, 2 terminees)
  • Le systeme a automatiquement corrige son resultat sur la base des reponses correctes uniques

Echantillon final

140 parcours honnetes – des participants qui :

  1. Ont repondu aux 11 questions
  2. N’ont pas refait le test OU dont les tentatives repetees n’ont pas ameliore le resultat par memorisation

Niveau de confiance : 95% (pour un echantillon de 140 personnes, marge d’erreur ±8,3%)

Conclusion : le nettoyage des donnees a montre que les gens detectent mieux l’IA (77%) que ne le suggeraient les tentatives incompletes. Mais la triche (15% de tentatives de fraude) confirme que le test est reellement difficile.


Vous ne voulez pas seulement detecter l’IA, mais l’utiliser efficacement ?

Savoir distinguer un texte IA d’un texte humain est une competence utile. Mais savoir exploiter l’IA pour vos propres taches – c’est un veritable avantage concurrentiel.

Chez mysummit.school, nous apprenons aux managers a :

  • Utiliser ChatGPT, Claude, YandexGPT pour les taches quotidiennes
  • Creer des prompts qui produisent les resultats attendus
  • Evaluer de maniere critique le contenu IA et reperer les erreurs
  • Integrer l’IA dans les processus de travail de l’equipe

3 lecons gratuites – sans theorie, que de la pratique.

Obtenir le module gratuit →