Schema.org est le langage des LLM
Schema.org en JSON-LD est devenu le standard de facto pour communiquer aux LLM la structure sémantique d'une page. Google le recommande depuis 2017 ; les LLM (GPTBot, ClaudeBot, PerplexityBot) parsent quasi-exclusivement le JSON-LD pour extraire l'entité, l'auteur, la date, le sujet. Microdata et RDFa fonctionnent encore pour Google mais sont 5-10x moins fiables pour les LLM.
Cinq schemas prioritaires pour le GEO
Organization : déployé sur la home, identifie l'entité de l'entreprise. Champs critiques : name, url, logo, sameAs (liens vers Wikipedia, LinkedIn, X). Article ou BlogPosting : pour les pages éditoriales. Champs : headline, description, datePublished, dateModified, author (Person ou Organization), image. FAQPage : pour les sections FAQ, fortement corrélé avec citation AI Overview. HowTo : pour les pages tutoriels/guides avec étapes. Product ou Service : pour pages produit avec name, description, brand, aggregateRating, offers.
Implémentation JSON-LD vs microdata
JSON-LD obligatoire en 2026. Implémenter dans le <head> ou avant </body>, avec @context Schema.org standard et @type adapté. Pour TypeScript, package npm schema-dts fournit les types pour autocomplétion. Microdata avec attributs HTML inline est moins fiable pour les LLM.
Validation et tests
Trois validateurs gratuits indispensables : Google Rich Results Test (focus Google), Schema.org Validator (validation pure), JSON-LD Playground (dev-focus). Utiliser systématiquement avant déploiement de toute nouvelle page. Une seule erreur dans le JSON-LD invalide tout le bloc.
Erreurs fréquentes
Premier piège : schema vide ou minimal (juste @type + name). Les LLM ont besoin de richesse sémantique pour bénéficier du schema. Deuxième piège : schema déclaré mais non synchronisé avec le contenu visible (ex : schema dit « published 2024-01-01 » mais l'article est récent). Les LLM détectent ces incohérences et dévalorisent. Troisième piège : schema dupliqué entre header et body, créant des conflits.
Schema sameAs pour Organization
Le champ sameAs de Organization est un signal important pour les LLM : il liste les profils canoniques de votre marque sur le web (Wikipedia, LinkedIn, X, Crunchbase, GitHub si pertinent, profils sectoriels). Cette liste aide les LLM à désambiguïser votre marque (vs concurrents avec noms similaires) et à associer les sources tierces qui parlent de vous.
Exemple sameAs solide
["https://en.wikipedia.org/wiki/MyBrand", "https://www.linkedin.com/company/mybrand", "https://twitter.com/mybrand", "https://www.crunchbase.com/organization/mybrand", "https://github.com/mybrand"]. 5 entrées canoniques bien renseignées valent mieux que 10 entrées approximatives.
Cadence de mise à jour
Le schema doit être maintenu en synchronisation avec le contenu : dateModified renseigné à chaque update significatif, aggregateRating mis à jour si vos avis évoluent, offers actualisés si vos prix changent. Schema obsolète = signal négatif pour les LLM.
Stratégie de déploiement progressif
Mois 1 : Organization sur home + Article sur 10 articles blog les plus visités. Mois 2 : FAQPage sur top 5 pages produit. Mois 3 : HowTo sur pages tutoriels. Mois 4-6 : Product/Service sur catalogue. Mois 7-12 : enrichissement progressif des champs (sameAs complet, aggregateRating, etc.). Effort total ~10-20 jours développeur sur 12 mois.