Les moteurs de réponse IA sélectionnent leurs sources via un processus en plusieurs étapes : requête → récupération → re-classement → extraction d'extrait → citation. Chaque étape filtre les pages candidates. Votre entreprise ne peut être citée que si elle passe toutes les étapes. Les signaux qui déterminent le passage diffèrent significativement entre ChatGPT, Perplexity et Google AIO.
L'architecture générale : la génération augmentée par récupération
Les moteurs de réponse IA modernes utilisent la génération augmentée par récupération (RAG). Quand un utilisateur soumet une requête : (1) un composant de recherche récupère les documents candidats ; (2) un modèle de re-classement évalue les candidats pour la pertinence et la qualité ; (3) le modèle de langage lit les meilleurs candidats et génère une réponse synthétisée ; (4) les URLs source sont attachées aux affirmations dans la réponse. L'insight clé est que la sélection se produit à l'étape 2 — une page récupérée mais mal structurée perdra face à une page à la fois récupérée et densément informative.
ChatGPT (avec navigation web)
La navigation web de ChatGPT utilise une API de recherche alimentée par Bing pour récupérer les candidats, puis applique un modèle de re-classement pour sélectionner les meilleurs passages. Facteurs de sélection observés :
- Accès GPTBot — les pages bloquées pour GPTBot dans robots.txt sont entièrement exclues. C'est la barrière la plus courante et la plus facilement corrigée.
- Structure de contenu answer-first — ChatGPT extrait la première réponse complète qu'il trouve. Les pages qui s'ouvrent avec la réponse directe sont citées avec l'extrait correct ; les pages qui enfouissent les réponses produisent des extraits de faible qualité.
- Présence dans l'index Bing — la navigation web de ChatGPT puise dans l'index de Bing. Les pages non indexées par Bing sont invisibles. Soumettez via Bing Webmaster Tools si votre indexation Bing est faible.
- Schéma JSON-LD — les schémas FAQPage et Article améliorent la qualité d'identification des passages.
Perplexity
Perplexity opère son propre crawler web (PerplexityBot) et construit un index propriétaire. Son re-classement est notamment agressif en termes de citations — il cite fréquemment plus de sources par réponse que ChatGPT et tend à puiser dans du contenu plus long et structuré. Signaux clés :
- Accès PerplexityBot — comme GPTBot, doit être autorisé dans robots.txt. Perplexity respecte aussi llms.txt et agents.json pour le contexte.
- Densité des sous-titres — le modèle d'extraction de Perplexity puise spécifiquement depuis les sections H2/H3. Les pages avec des sous-titres clairs correspondant à l'intention de requête sont citées au niveau de la section.
- Spécificité numérique — Perplexity préfère fortement les pages avec des données spécifiques (pourcentages, dates, entités nommées). Les affirmations qualitatives vagues sont remplacées par des pages avec des chiffres.
Google AI Overviews (AIO)
Google AIO est le système le plus complexe car il s'intègre directement à l'infrastructure de recherche existante de Google. La sélection des sources combine les signaux PageRank traditionnels avec des facteurs de qualité spécifiques à l'IA :
- Signaux E-E-A-T — Expérience, Expertise, Autorité, Fiabilité. AIO pondère fortement les pages d'experts démontrables (credentials d'auteur, affiliation organisationnelle, couverture thématique cohérente).
- Éligibilité aux featured snippets — Les pages qui apparaissent déjà dans les featured snippets pour une requête sont sélectionnées de façon disproportionnée pour AIO. L'optimisation des featured snippets (réponses directes, formatage en tableau, listes numérotées) alimente directement la sélection AIO.
- Fraîcheur — Pour les requêtes sensibles au temps, AIO préfère les pages mises à jour dans les 90 derniers jours.
Ce sur quoi tous les trois s'accordent
Malgré leurs différences, tous les trois sélectionnent systématiquement les pages qui : (1) fournissent la réponse directe à la requête dans le premier paragraphe ; (2) utilisent une structure sémantique claire avec H2/H3 ; (3) sont accessibles à leurs crawlers respectifs ; (4) ont des données structurées valides ; (5) proviennent de domaines avec des références externes. Ces cinq signaux représentent la base non négociable pour l'éligibilité aux citations IA sur tous les systèmes majeurs.