26 snapshots LLM B2B FR en open data
Geoperf publie en open data 26 snapshots de visibilité LLM exécutés hebdomadairement de janvier à juin 2026 sur un panel de 30 prompts B2B FR couvrant 10 secteurs. C'est, à notre connaissance, le plus large dataset open de monitoring LLM publié en France.
Licence : Creative Commons CC-BY 4.0 (utilisation libre avec attribution « Source : Geoperf 2026 LLM B2B FR Dataset »). Format : CSV (10 MB compressé) + JSON (40 MB).
Contenu du dataset
Pour chaque snapshot (26 snapshots × 30 prompts × 4 LLM = 3 120 réponses) : ID prompt, secteur, LLM utilisé, modèle exact (GPT-4o, Gemini 2.5 Pro, Claude Sonnet 4.6, Perplexity Sonar), texte de la réponse complète, marques mentionnées extraites, position des marques dans la réponse, sources citées, sentiment classifié, score de confidence.
Les marques sont anonymisées dans la version publique (Marque_001 à Marque_148) — la version pleine avec noms de marques est disponible sur demande pour les utilisateurs académiques avec un accord d'usage.
Cas d'usage
Équipes data internes : entraîner un modèle de prédiction citation rate, identifier les patterns sectoriels, benchmark votre propre dataset.
Recherche académique : étude des biais LLM, analyse de la stochasticité, comparaison cross-LLM.
Équipes journalisme : analyses sectorielles, articles tendances LLM marketing, vérification des claims des fournisseurs LLM.
Équipes consulting : benchmark client vs panel large, identifier les opportunités sectorielles.
Anomalies notables observées dans le dataset
Variance ChatGPT-Perplexity sur SaaS B2B FR : PayFit a 38 % citation rate Perplexity et 14 % sur ChatGPT. Pattern observé : Perplexity favorise les acteurs French Tech avec couverture Maddyness/JDN, ChatGPT pondère plus la presse établie.
Stabilité de Sanofi : Sanofi a maintenu un citation rate > 80 % sur tous les snapshots du dataset, démontrant la robustesse d'une stratégie GEO mature (Wikipedia EN+FR + presse internationale).
Émergence de Mistral AI : la marque est passée de 32 % à 78 % de citation rate entre janvier et juin 2026, tirée par la couverture presse internationale.
Méthodologie
Panel de 30 prompts construit sur les 10 secteurs B2B les plus représentés en FR (banque, asset mgmt, SaaS, conseil, avocats, pharma, aéro, énergie, assurance, ESN). Mix par secteur : 12 prompts découverte + 8 comparatifs + 6 techniques + 4 marque-explicites.
Exécution hebdomadaire chaque vendredi entre 10h-14h CET pour stabiliser les conditions. Modèles utilisés : GPT-4o (OpenAI), Gemini 2.5 Pro (Google), Claude Sonnet 4.6 (Anthropic), Perplexity Sonar Pro. Température 0.7 standard. Pas de fine-tuning, pas de few-shot prompting (zero-shot pur).
Téléchargement
Le dataset est téléchargeable depuis geoperf.com/open-data (page à venir). Pour la version complète avec noms de marques et accès académique, contactez l'équipe via /contact.
Crédits et remerciements
Le dataset est rendu possible par les abonnés Geoperf SaaS Pro et Agency dont les contributions financent l'exécution des panels et l'infrastructure. Merci à toute l'équipe et aux clients early-adopters qui ont rendu cet open data possible.