Comment se faire citer par ChatGPT, Gemini et les autres IA
Ce que j'ai fait concrètement sur mes 4 sites. Pas de théorie, que du vécu.
J'ai découvert un truc. Énormément de gens tapent maintenant sur ChatGPT pour tout et n'importe quoi. Plus seulement Google. Ils demandent des recommandations, des comparatifs, des solutions à leurs problèmes. Et l'IA cite des sites dans ses réponses.
La question c'est : comment faire pour que ce soit ton site qui soit cité ?
J'ai passé une journée à creuser le sujet et à implémenter les changements sur mes 4 domaines. Voilà ce que j'ai appris.
Le truc fondamental à comprendre
ChatGPT ne fonctionne pas comme Google. Il ne classe pas des pages web. Il récupère des passages de texte, les valide contre plusieurs sources, et synthétise une réponse. Quand quelqu'un pose une question, ChatGPT Search utilise l'index Bing pour trouver du contenu en temps réel.
Si tu ne rankes pas dans Bing, c'est mort pour ChatGPT. C'est la porte d'entrée.
Et chaque IA a sa propre source :
| IA | Source principale | Ce qui compte le plus |
|---|---|---|
| ChatGPT | Index Bing | Être indexé dans Bing, contenu factuel |
| Gemini | Google Search + YouTube | SEO classique + vidéos YouTube |
| Perplexity | Reddit (45% plus cité) | Présence Reddit, fraîcheur |
| Claude | Contenu généré par les utilisateurs | Avis, reviews, UGC (2 à 4x plus cité) |
| Grok | X / Twitter | Présence sur X |
Seulement 11% des sites sont cités à la fois par ChatGPT ET Perplexity. Les plateformes piochent dans des pools largement séparés. Donc oui, faut une stratégie par plateforme.
Les 5 facteurs qui font qu'une page est citée
J'ai épluché les données. Voilà ce qui ressort :
- Réponse directe en premier. Ton H2 pose une question ? La première phrase doit y répondre. Ne pas enterrer l'info sous trois paragraphes de contexte. 44,2% de toutes les citations ChatGPT viennent des premiers 30% du contenu d'une page.
- Densité de faits. Les pages avec environ 1 fait unique tous les 80 mots sont 4,2x plus susceptibles d'être citées. Des chiffres concrets, des comparaisons, des données vérifiables. Pas du blabla.
- Fraîcheur. Le contenu cité par les IA est en moyenne 25,7% plus frais que le contenu classique bien classé. Et 76,4% des pages les plus citées par ChatGPT ont été mises à jour dans les 30 derniers jours.
- Schema markup. Article, FAQ, Organization en JSON-LD. Les pages avec du schema structuré sont 3x plus susceptibles d'être citées.
- Autorité du domaine. Les sites avec plus de 32 000 domaines référents sont 3,5x plus susceptibles d'être cités. C'est le facteur le plus dur à obtenir quand tu pars de zéro.
Ce que j'ai fait concrètement sur mes sites
J'ai 4 domaines : novaia.org, yannservice.fr, yannservice.com, yannwzservice.com. Voilà ce que j'ai implémenté sur chacun en une seule session.
1. robots.txt ouvert à tous les bots IA
L'ancien robots.txt de mes sites c'était juste :
User-agent: *
Allow: /
Ça marche, mais c'est pas assez explicite. Certains bots IA vérifient s'ils ont une entrée spécifique avant de crawler. J'ai ajouté des directives pour 29 bots IA :
- OpenAI : GPTBot, OAI-SearchBot, ChatGPT-User
- Anthropic : ClaudeBot, Claude-SearchBot, Claude-User
- Perplexity : PerplexityBot, Perplexity-User
- Google AI : Google-CloudVertexBot, GoogleOther
- Meta : FacebookBot, Meta-ExternalAgent, Meta-ExternalFetcher
- Autres : Amazonbot, Applebot, DuckAssistBot, MistralAI-User, Bytespider, PetalBot, CCBot, et d'autres
Chaque bot a son propre bloc User-agent + Allow: /. Oui c'est long, mais c'est fait une fois.
2. Fichier llms.txt à la racine
C'est un standard émergent. Un fichier texte à la racine qui décrit ton site pour les crawlers IA. Le format :
# Nom du site
> Description du site en une phrase.
## Pages principales
- [Accueil](https://tonsite.fr/): Description
- [Tarifs](https://tonsite.fr/tarifs.html): Description
## Informations clés
- Ce que tu fais
- Où tu es basé
- Tes prix
C'est basique mais ça donne du contexte aux modèles qui crawlent ton site. Aucun effort, gros potentiel.
3. Schema JSON-LD complet
J'avais déjà du schema sur certains sites, mais pas partout et pas complet. J'ai ajouté :
- ProfessionalService ou Organization selon le site
- FAQPage avec 4-5 vraies questions (pas des FAQ génériques)
- Offers avec prix et descriptions
- Coordonnées géo correctes (j'avais Paris au lieu de Strasbourg sur un site...)
4. Meta tags de base
Sur yannservice.com, il manquait <meta name="robots" content="index, follow"> et <link rel="canonical">. Des trucs basiques mais qui font la différence pour les crawlers.
Ce que ça ne fait PAS
Soyons honnêtes. Tout ça c'est la base technique. Ça ouvre la porte. Mais ça ne garantit pas d'être cité.
Les facteurs qui prennent du temps :
- Backlinks et autorité de domaine : ça se construit sur des mois, pas des heures
- Mentions externes : Reddit, forums, Trustpilot, LinkedIn. Les modèles cross-référencent pour valider qu'une entité existe
- Contenu informatif dense : les IA citent des ressources, pas des pages de vente
La partie technique que j'ai faite aujourd'hui c'est le minimum. Le vrai travail c'est le contenu et la distribution.
Le plan pour la suite
Mon approche : concentrer tout sur novaia.org. Un domaine, toute l'autorité. Les autres sites bénéficient via des liens.
- Blog avec des articles qui répondent à des requêtes larges en français
- Inscription Bing Webmaster Tools + Google Search Console
- Présence Reddit dans les subreddits pertinents
- YouTube (j'ai 559+ vidéos) lié vers les articles et vice-versa
- Mise à jour régulière : la fraîcheur compte
L'idée c'est simple : l'IA est en train de devenir le nouveau Google. Ceux qui bougent maintenant prennent le terrain avant que tout le monde comprenne ce qui se passe. C'est le même move que le SEO en 2005.
Sauf que là, la fenêtre est ouverte maintenant.