Comment ChatGPT recherche-t-il les produits ?
ChatGPT emprunte deux voies différentes pour trouver des informations sur les produits :
- Données d'entraînement : ce que GPTBot a crawlé avant l'entraînement fait partie des connaissances de base de ChatGPT. Les mises à jour n'interviennent que lors de nouvelles sessions d'entraînement.
- Recherche web en temps réel (ChatGPT avec Bing) : les versions plus récentes de ChatGPT peuvent chercher sur le web en direct, en privilégiant les pages actuelles et indexées.
Pour une visibilité immédiate, la recherche en temps réel est décisive. Pour une présence durable, les données d'entraînement comptent. Les deux voies reposent sur la même base : une page produit crawlable et structurée.
GPTBot : le crawler d'OpenAI
GPTBot est le crawler web officiel d'OpenAI. Il s'identifie comme GPTBot/1.1 dans le User-Agent et suit les règles du robots.txt.
Ce que GPTBot crawle, et ce qu'il ne crawle pas :
- HTML statique public
- Balisage Schema.org au format JSON-LD
- Les pages listées dans le sitemap
- Les contenus rendus uniquement en JavaScript
- Les pages derrière des murs de connexion
- Les pages qui interdisent GPTBot dans le robots.txt
Autoriser GPTBot dans le robots.txt
De nombreux sites bloquent GPTBot par accident. Vérifiez votre robots.txt et assurez-vous que GPTBot est explicitement autorisé :
User-agent: GPTBot
Allow: /
User-agent: PerplexityBot
Allow: /
User-agent: ClaudeBot
Allow: /
User-agent: Google-Extended
Allow: /
Questions fréquentes
Comment GPTBot crawle-t-il ? +
GPTBot crawle les pages HTML accessibles au public, a besoin d'une autorisation dans le robots.txt et privilégie le HTML statique.
Quand ChatGPT connaît-il mon produit ? +
Avec la recherche en temps réel : 2 à 14 jours après l'indexation Google. Avec les données d'entraînement : lors des futures sessions d'entraînement d'OpenAI.
Que dois-je faire ? +
Autoriser GPTBot dans le robots.txt, intégrer Schema.org et fournir une URL statique crawlable par produit, Feed-AI le fait automatiquement.