Visibilité IA : quels chiffres méritent votre confiance, et lesquels vous mènent en bateau ?

POINT この記事のポイント

Sur 2 961 requêtes, le classement individuel ne se reproduit quasiment jamais
Le seul chiffre exploitable, c'est le taux d'apparition mesuré sur de nombreuses répétitions

#Visibilité IA
#Mesure de marque
#ChatGPT
#GEO
#Taux d'apparition

Quand on se demande « est-ce que l’IA parle de ma marque ? »

Depuis quelques mois, les outils qui surveillent si votre nom de marque sort dans ChatGPT ou Claude se sont multipliés à toute vitesse. Et quand on les essaie pour de vrai, on tombe vite sur quelque chose de déstabilisant : posez deux fois la même question, et le classement bouge à chaque coup. De quoi se demander si ces scores valent vraiment quelque chose au moment de décider.

Cette méfiance, c’est plutôt bon signe. La visibilité IA est un terrain neuf, et tant qu’on ne lit pas chaque indicateur avec sa fiabilité propre en tête, on finit par juger sur la beauté du tableau de bord plutôt que sur ce qu’il dit vraiment. Alors aujourd’hui, on aligne trois études indépendantes pour faire le tri : d’un côté les chiffres exploitables, de l’autre ceux qui vous mènent en bateau.

2 961 requêtes plus tard : le classement est du bruit, le taux d’apparition est un signal

Une grande enquête de SparkToro a fait tourner la chose en grand : 600 volontaires ont soumis à trois IA un total de 2 961 requêtes de recommandation de marques. Et deux faits en ressortent, qu’il faut garder en tête.

– D’un essai à l’autre, la même liste se reproduisait dans moins de 1% des cas, et l’ordre exact dans environ 0,1% seulement. – En revanche, le taux d’apparition — « sur tant de réponses, combien de fois la marque sort-elle ? » — restait stable.

Autrement dit, le classement d’un essai isolé, c’est du bruit ; le taux d’apparition mesuré en répétant, lui, c’est un signal. Noter d’un air sérieux qu’on est 3e aujourd’hui et 7e demain, c’est à peu près aussi utile que de tenir le carnet des résultats d’un lancer de dé. En revanche, quand une marque très visible apparaît dans 97% des 71 mesures, là on tient quelque chose d’assez solide pour servir de base à une comparaison mensuelle.

C’est toute la différence entre un coup de dé et une distribution.

Les prompts « estimés » : faux dans le détail, utiles pour le classement relatif

L’analyse d’Otterly AI vient compléter le tableau. Les vrais prompts tapés par des utilisateurs faisaient en moyenne 15,1 mots, contre 8,8 mots pour les prompts « estimés » que les outils génèrent automatiquement. Les premiers sont plus personnels, plus chargés de contexte ; les seconds, plus courts et davantage tournés vers le « commercial ».

Et pourtant. Le classement relatif des marques, lui, ressortait « assez similaire » dans les deux cas. Autrement dit, un prompt estimé ne reflète pas la réalité telle quelle, mais pour situer grossièrement une marque par rapport à ses concurrents, il fait encore l’affaire.

Le « volume de recherche de prompts » : précis en apparence, biaisé en profondeur

La revue critique de jaeckert-odaniel.com pousse le bouchon un cran plus loin. Le « volume de recherche de prompts » a beau afficher des chiffres d’une précision rassurante, ses fondations sont probablement bancales. Pêle-mêle :

– les données de base penchent vers Chrome sur ordinateur de bureau, et passent donc largement à côté de l’usage mobile ; – les profils du panel sont très « tech », ce qui fait voler en éclats la représentativité de l’échantillon (à quel point l’échantillon observé reflète vraiment l’ensemble du marché) ; – et l’extrapolation à partir de petits échantillons empile les erreurs, jusqu’à produire une précision de façade.

Bref, cet indicateur peut servir à formuler des hypothèses, mais l’installer comme KPI principal pour répartir un budget, c’est jouer avec le feu.

Conclusion : avant le score, regardez le nombre de répétitions et la définition du taux d’apparition

Quand on ouvre un outil de visibilité IA, l’œil file droit vers les classements et les scores. Pourtant, les deux premières choses à vérifier, ce sont : sur combien de répétitions ce chiffre est-il calculé, et comment le taux d’apparition est-il défini ? Tant que ces deux points restent flous, le tableau de bord aura beau être superbe, la décision qu’on en tire restera fragile.

L’outil publie-t-il sa méthodologie, comme le fait SparkToro ? Repose-t-il au moins sur quelques dizaines de mesures répétées ? Voilà ce qu’on veut savoir. Quant à la valeur absolue du « volume de recherche de prompts », mieux vaut ne pas la transformer telle quelle en KPI : à lire plutôt comme un indicateur d’appoint, à croiser avec les tendances de classement et vos propres données de première main.

Sources

Rand Fishkin (SparkToro/Gumshoe), « NEW Research: AIs are highly inconsistent when recommending brands or products », 2026-01-27, sparktoro.com
Thomas Peham (Otterly AI), « Real vs Estimated Prompts: I Analyzed 100s of Real ChatGPT Queries », 2026-02-03, otterly.ai
jaeckert-odaniel.com, « Prompt search volume: Real data or all guessed? », 2025-12-16, jaeckert-odaniel.com