Pillar guide

Visibilité LLM 2026 : KPIs, méthodologie et mesure de votre rang dans l'IA

Citation rate, rang moyen, share-of-voice, sources autorité — quatre KPIs qui n'existaient pas il y a trois ans et qui définissent désormais la présence d'une marque dans ChatGPT, Claude, Gemini et Perplexity. Ce guide détaille le design de panel, la fréquence, la couverture cross-LLM, la détection des mentions, et donne des chiffres de benchmark réels (Asset Management FR, agences digitales, fintech B2B). Pour les CMO qui veulent piloter le canal, pas juste en parler.

Qu'est-ce que la visibilité LLM ?

La visibilité LLM désigne la mesure de la présence et du rang d'une marque dans les réponses générées par les modèles de langage (ChatGPT, Claude, Gemini, Perplexity et désormais d'autres). C'est l'équivalent fonctionnel du « rang Google » mais sur la nouvelle surface conversationnelle. Distinct du sujet GEO (qui couvre les tactiques d'optimisation), la visibilité LLM est avant tout une discipline de mesure.

Quatre KPIs structurent une mesure sérieuse en 2026 : citation rate (% des prompts qui citent la marque), average rank (rang moyen dans les listes ordonnées), share-of-voice (part de mention vs concurrents), authority sources (médias/sites cités quand votre secteur est évoqué). Ces métriques sont consolidées dans des outils dédiés comme Geoperf, Profound, Otterly.ai.

Pour un CMO B2B en 2026, la visibilité LLM est aux LLM ce que Search Console est à Google : l'instrumentation indispensable pour piloter la performance du canal. Sans elle, toute action GEO (RP, Wikipedia, contenu) est aveugle. Avec elle, on peut justifier le budget, détecter les mouvements concurrents, et prouver le ROI d'un investissement éditorial.

Pourquoi la mesurer en 2026

La nécessité de mesurer la visibilité LLM en 2026 ne tient pas à un effet de mode mais à trois faits objectifs.

Volume du canal. ChatGPT, Perplexity, Claude et Gemini cumulent ~5 milliards de visites mensuelles fin 2025 (Similarweb), avec +200% YoY sur la portion B2B. 1 décideur B2B sur 3 consulte un LLM dans son cycle d'évaluation fournisseur (Gartner 2025), proportion qui monte à 1 sur 2 en SaaS et services tech. Au-delà d'un certain seuil de volume, ne pas mesurer revient à piloter à l'aveugle un canal qui pèse 5-15% de l'organique.

Maturité instrumentale. Mesurer la visibilité LLM nécessitait en 2023 un script Python custom et plusieurs jours d'engineering. En 2026, des outils dédiés (Geoperf, Profound, Otterly, Brandwatch) industrialisent l'instrumentation : panel de 30-300 prompts, ré-exécution semainenne sur 4 LLM, dashboards prêts à l'emploi, alertes par email. Le coût démarre à 79 €/mois sur Geoperf Starter — accessible pour toute PME avec budget marketing >50 k€/an.

Asymétrie d'information. Les marques qui mesurent leur visibilité LLM en 2026 prennent plusieurs longueurs d'avance sur celles qui ne mesurent pas. Elles savent où elles sont sur-citées et sous-citées, quels concurrents les dépassent et sur quels prompts, et où réinvestir. Les marques qui ne mesurent pas découvrent les écarts 18-24 mois après — quand le rattrapage coûte 3-5x plus cher.

Pour une PME B2B FR avec 50-300 employés, la mesure visibilité LLM en 2026 est devenue un standard de pilotage marketing au même titre que Google Analytics et Search Console l'étaient en 2015. Le coût d'opportunité de l'inaction est mesurable : ~10-20 k€/an de pipeline qualifié à horizon 2028 pour une PME 150 k€ marketing budget (estimation Forrester 2025).

Méthodologie : comment mesurer correctement

Une mesure rigoureuse de la visibilité LLM repose sur quatre choix méthodologiques.

Choix 1 : design du panel de prompts. Le panel doit être représentatif des recherches réelles de vos buyer personas. Méthode robuste : (a) interviewer 5-10 leads/clients sur leur process de recherche fournisseur (« sur quel sujet as-tu interrogé ChatGPT ? quels mots as-tu utilisés ? »), (b) extraire 30-100 prompts diversifiés en 3 catégories — recherche directe sectorielle, use-case, concurrentielle, (c) valider sur un LLM avant de scaler. Un panel construit à partir de keywords SEO seuls rate la spécificité conversationnelle (ChatGPT reçoit des prompts en langage naturel de 10-15 mots, pas des keywords de 3 mots).

Choix 2 : fréquence de mesure. Hebdomadaire est le standard 2026 pour les marques actives. Mensuel reste acceptable pour le suivi minimal. Quotidien n'apporte pas de signal supplémentaire vs le coût API. Ré-exécuter le panel chaque semaine permet de moyenner la variance LLM (les modèles sont stochastiques) et de détecter les drifts en moins de 4 semaines.

Choix 3 : couverture LLM. Mesurer ChatGPT seul donne une vision biaisée — les 4 LLM divergent significativement. Standard 2026 : ChatGPT (GPT-4o), Claude (Sonnet 4.6), Gemini (2.5 Pro), Perplexity (Sonar Pro). On peut ajouter Mistral et Grok pour les marques multi-marchés. Chaque LLM a son biais : ChatGPT favorise les sources US/EN, Perplexity privilégie la fraîcheur web et cite ses sources, Claude est conservateur sur les recommandations, Gemini reflète Google Search.

Choix 4 : détection des mentions. Le piège technique : matcher « BNP » dans une réponse ne suffit pas — il faut distinguer « BNP Paribas Asset Management » de « BNP Real Estate ». Méthode robuste : regex word-boundary stricte sur le nom officiel + variantes contextuelles (BNP Paribas AM, BNP AM) + nom dérivé du domaine. La détection doit être insensible à la casse mais sensible aux frontières de mots. Geoperf utilise par défaut cette méthodologie (cf. FAQ produit).

Les 4 KPIs primaires détaillés

KPI #1 — Citation rate. Pourcentage des prompts du panel dans lesquels la marque est mentionnée. Mesure de base, simple à interpréter. Objectif typique pour une marque B2B FR mid-market sur son secteur : 30-50% à maturité (12-18 mois d'investissement GEO). Sous 15%, la marque est invisible ; au-dessus de 70%, elle est considérée comme « default option » par les LLM (rare et précieux).

KPI #2 — Average rank. Quand la réponse contient une liste ordonnée (« Top 5 outils de monitoring »), à quel rang moyen apparaît la marque ? Calculé seulement sur les réponses ordonnées (~40% du total typiquement). La 1ère mention vaut beaucoup plus que la 5ème en termes de mémorisation et de clic. Objectif typique : top 3 sur les prompts cibles, à terme.

KPI #3 — Share-of-voice. Part de mention de votre marque vs vos 5-10 concurrents directs sur l'ensemble du panel. C'est le KPI le plus actionnable : il mesure la position relative, qui compte plus que le citation rate absolu (un citation rate qui monte alors que les concurrents montent plus n'est pas une victoire).

KPI #4 — Authority sources cited. Quels médias/blogs/sites sont cités dans les réponses LLM quand votre secteur est évoqué ? C'est la cartographie de votre prochain plan RP. Si TechCrunch, Maddyness et Frenchweb apparaissent souvent, ce sont les médias prioritaires pour vos partenariats. Si Wikipedia est cité dans 60% des réponses, créer/optimiser votre page Wikipedia devient prioritaire.

Geoperf SaaS instrumente directement ces 4 KPIs sur 4 LLM, avec dashboards hebdomadaires et alertes par email quand un seuil est franchi (ex : un concurrent vous dépasse en share-of-voice, ou 3+ nouvelles sources apparaissent dans votre catégorie).

Études de cas : des chiffres réels

Trois benchmarks Geoperf récents qui illustrent l'amplitude des KPIs visibilité LLM.

Asset Management France (étude Q2 2026, panel 30 prompts). Top tier mesuré : Amundi citation rate 78%, average rank 1.8, share-of-voice 22%. BNP Paribas AM 62% / 2.4 / 18%. AXA IM 48% / 3.1 / 14%. Long tail (CA AM, La Banque Postale AM) : 15-30% de citation rate, average rank 4-6, share-of-voice <10%. Sources autorité top 3 : Wikipedia, L'AGEFI, Funds Magazine.

Agences digitales FR (étude Q1 2026). Publicis Sapient citation rate 80%, Havas 75%, indépendants top tier (909C, Notchup) à 30-40%. Insight clé : les agences sectorialisées (food, healthcare) émergent rarement sans prompt très ciblé — le citation rate sur prompts génériques mesure mal leur autorité réelle.

SaaS B2B fintech FR. Spendesk 85%, Pennylane 72%, Qonto 68%. Mid-market (Memo Bank, Defacto) plafonnent à 25-35% malgré une bonne presse FR. Sources autorité top : TechCrunch (35% des réponses), Maddyness (28%), Frenchweb (22%), Wikipedia (45%).

Le pattern transverse confirme un principe : les marques disposant d'une présence Wikipedia EN bien sourcée sont systématiquement sur-représentées, même sur des prompts FR. Wikipedia apparaît comme la source #1 à investir pour une marque B2B en 2026.

Outils de mesure 2026

Trois familles d'outils pour mesurer la visibilité LLM en 2026.

Solutions spécialisées (recommandé). Geoperf (FR, EU, focus PME mid-market, 79-799 €/mois), Profound (US, enterprise tier, ~500-2000 USD/mois), Otterly.ai (US, dashboard léger, ~99 USD/mois starter), Brandwatch (extension social listening, enterprise pricing). Tous interrogent ChatGPT + Claude + Gemini + Perplexity sur un panel personnalisable, scorent les 4 KPIs, et envoient des alertes.

Solutions internes (DIY). Pour les équipes data avec ingénieurs : un script Python sur les API OpenAI, Anthropic, Google Vertex AI et Perplexity ré-exécute hebdomadairement 50 prompts et stocke les résultats dans Snowflake/BigQuery. Coût : ~50-150 €/mois en API + ~5-10j d'engineering. Trade-off : flexibilité maximale, mais aucun benchmark sectoriel pré-construit, aucune comparaison concurrentielle automatisée.

Approche manuelle (validation seulement). Pour valider la pertinence avant tout investissement : 10 prompts représentatifs, exécutés manuellement chaque mois, screenshots dans un Google Doc. Suffisant pour un comité de direction en mode « est-ce qu'on est au moins présents dans ChatGPT ? ». Insuffisant pour piloter une stratégie continue.

Le critère #1 de sélection en 2026 : la profondeur sectorielle dans votre langue de marché. Profound et Brandwatch sont excellents pour des marques globales avec budget illimité ; Geoperf est calibré pour les CMO PME FR/EU avec prompts en français, benchmarks sectoriels FR pertinents, hébergement EU et support en français. Le plan Free permet de valider la pertinence sur 30 prompts mensuels avant tout engagement.

FAQ

Questions fréquentes

Comment construire un panel de prompts représentatif ?

Trois étapes. (1) Lister 30-50 prompts que vos buyer personas formulent réellement. Sources : entretiens leads (« comment as-tu cherché ce type de solution ? »), Search Console des keywords commerciaux, prompts compétiteurs. (2) Diversifier en 3 catégories : recherche directe sectorielle (10 prompts), use-case (10 prompts), concurrentiel (10 prompts). (3) Valider sur 1 LLM, mesurer la cohérence des résultats sur 3 ré-exécutions, ajuster.

À quelle fréquence ré-exécuter le panel ?

Hebdomadaire pour les marques actives en GEO, mensuel pour le suivi minimal. Au-dessus de la cadence hebdo, les coûts API LLM explosent sans gain de signal. En dessous du mensuel, on rate les drifts importants (ex : un concurrent qui passe en top 3). Geoperf SaaS impose la cadence hebdo dès le plan Starter (79 €/mois) car c'est le bon équilibre coût/signal.

Le citation rate change beaucoup d'une exécution à l'autre — c'est normal ?

Oui, les LLM sont stochastiques (température > 0). Sur 30 prompts ré-exécutés 3 fois sur le même LLM, on observe typiquement 5-10% de variance sur le citation rate. C'est pourquoi un seul snapshot ne suffit pas : il faut moyenner sur plusieurs exécutions ou sur une fenêtre temporelle (ex : moyenne mensuelle des 4 snapshots hebdomadaires). Au-dessous de 30 prompts, la variance domine le signal.

Quelle taille de panel optimale ?

30 prompts est le minimum statistique pour réduire la variance, 100 prompts est l'idéal pour les marques qui veulent une mesure fine sectorielle, 300 prompts est rare mais nécessaire pour les marques multi-secteurs ou multi-marchés. Au-delà, le coût en tokens API monte vite. Pour une PME B2B B2B mono-secteur, 30-50 prompts couvrent 80% du signal.

Comment éviter le biais de prompts auto-favorables ?

Trois règles. (1) Ne jamais inclure le nom de votre marque dans le prompt (« meilleur outil de monitoring marque » est OK, « meilleurs concurrents de Geoperf » biaise). (2) Inclure des prompts qui pourraient ne pas vous citer (« outils analytics SaaS » plus large que « monitoring LLM ») pour mesurer votre vrai pouvoir d'extraction. (3) Faire valider le panel par 2-3 buyer personas externes (clients existants ou prospects) — ils détectent les prompts irréalistes.

Le rang moyen est-il vraiment utile ?

Oui pour les listes ordonnées (« top 5 outils de... »), non pour les réponses non ordonnées. Sur les LLM, ~40% des réponses incluent un classement ordonné, le reste est en prose continue ou liste non ordonnée. On calcule le rang moyen seulement sur les réponses ordonnées, et on affiche distinctement « citation rate » (toutes réponses) et « average rank when ordered » (sous-ensemble). Confondre les deux donne des chiffres trompeurs.

Mesurer 4 LLM en parallèle, est-ce vraiment nécessaire ?

Oui, parce que les LLM divergent significativement. Sur le même panel de 30 prompts B2B, les écarts de citation rate entre ChatGPT, Claude, Gemini et Perplexity peuvent atteindre 20-30 points. Une marque sur-représentée chez ChatGPT peut être quasi-absente chez Perplexity (qui privilégie la fraîcheur web). Mesurer un seul LLM donne une vision biaisée. Cross-LLM est le standard pro 2026.

Les LLM voient-ils mon site, mon Wikipedia, ou seulement les sources tierces ?

Les trois, avec des poids différents. (1) Site propriétaire : les LLM le « voient » s'il est crawlé par leur partenariat (Bing pour ChatGPT Search) ou s'il est cité par d'autres sources lors de l'entraînement. (2) Wikipedia : poids majeur, c'est l'une des sources les plus utilisées au pré-entraînement et en mode browse. (3) Sources tierces (presse, blogs, forums) : poids fort, surtout si le contenu y mentionne explicitement votre marque dans le contexte sectoriel.

Comment expliquer ces KPIs à mon comité de direction ?

Cadrer en 3 phrases. (1) « 1 acheteur B2B sur 3 nous évalue désormais via ChatGPT — on doit le mesurer. » (2) « Notre citation rate est de X% sur 30 prompts secteur, vs Y% pour notre concurrent #1. » (3) « Avec un investissement Z (RP + Wikipedia + contenu), on projette +Δ% à 12 mois et la cohérence cross-LLM doublée. » Compter sur 3 graphes max : citation rate trend hebdo, share-of-voice vs top 5 concurrents, sources autorité citées.

Combien de temps pour voir un changement mesurable post-action ?

30 jours pour les actions on-page (FAQ schema, restructuration). 60-90 jours pour une nouvelle campagne RP qui amène 3-5 articles autorité. 6-9 mois pour une création Wikipedia bien sourcée (le temps que le contenu se diffuse dans le corpus + soit cité par d'autres). Le citation rate progresse rarement linéairement : on observe souvent des paliers (saut quand un nouvel article est référencé, plateau ensuite).

Action

Lancer une étude sectorielle gratuite

Recevoir mon étude sectorielle