top of page

robots.txt SEO : guide complet pour guider Googlebot efficacement

  • Photo du rédacteur: Rémy Bartocci
    Rémy Bartocci
  • 11 mai
  • 6 min de lecture

TL;DR : Le fichier robots.txt est un fichier texte placé à la racine de votre site qui indique aux robots des moteurs de recherche quelles pages ils peuvent ou ne peuvent pas explorer. Il contrôle le crawl, pas l'indexation. Mal configuré, il peut faire disparaître vos pages des résultats de recherche. Bien utilisé, il optimise votre budget de crawl et oriente Googlebot vers vos contenus stratégiques. C'est un levier clé du pilier technique SEO.


Le fichier robots.txt est souvent le premier fichier que Googlebot consulte en arrivant sur votre site. Mal configuré, il peut bloquer l'accès à l'ensemble de vos pages et faire disparaître votre site des résultats de recherche. Bien utilisé, il oriente les robots vers vos contenus stratégiques et préserve votre budget de crawl. Ce guide vous explique comment le lire, le configurer et éviter les erreurs les plus courantes.






Sommaire




Qu'est-ce que le fichier robots.txt ?


Le fichier robots.txt est un fichier texte public, placé à la racine de votre domaine (votresite.com/robots.txt), qui donne des instructions aux robots d'exploration (crawlers) comme Googlebot ou Bingbot.


Ce qu'il fait :


  • Indique aux bots quelles URLs ils peuvent explorer

  • Optimise le budget de crawl en évitant les pages sans valeur SEO

  • Réduit la charge serveur générée par les robots


Ce qu'il ne fait pas :


  • Il ne bloque pas l'indexation d'une page déjà connue de Google

  • Il ne protège pas un contenu confidentiel (le fichier est public)

  • Il ne garantit pas que tous les robots respecteront ses directives


Règle d'or : robots.txt contrôle le crawl. Pour bloquer l'indexation, utilisez la balise <meta name="robots" content="noindex">.

Ce fichier s'inscrit directement dans votre stratégie d'indexation SEO : ce que Googlebot ne peut pas explorer, il ne peut pas indexer correctement.



La syntaxe du fichier robots.txt


Les 4 directives principales


Directive

Rôle

Exemple

User-agent

Désigne le robot ciblé

User-agent: Googlebot

Disallow

Bloque l'accès à un chemin

Disallow: /admin/

Allow

Autorise une exception dans un bloc bloqué

Allow: /admin/ajax.php

Sitemap

Indique l'emplacement du sitemap XML

Sitemap: https://exemple.fr/sitemap.xml


Exemple de fichier robots.txt minimal et correct


User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /recherche/
Disallow: /*?s=

Sitemap: https://votresite.fr/sitemap.xml

Règles de syntaxe à respecter


  • Le nom du fichier doit s'écrire exactement robots.txt (minuscules, au pluriel) — toute erreur le rend inutile

  • Les valeurs sont sensibles à la casse : /Admin/ et /admin/ sont deux chemins différents

  • Les commentaires s'ajoutent avec #

  • Le fichier doit peser moins de 500 ko — au-delà, Google ignore le reste des directives

  • Un seul fichier par domaine — chaque sous-domaine nécessite son propre fichier



User-agent : cibler le bon robot


User-agent: * s'applique à tous les robots. Vous pouvez cibler un bot spécifique :


User-agent: Googlebot       # Google uniquement
User-agent: Bingbot         # Bing uniquement
User-agent: GPTBot          # Bot d'entraînement OpenAI
User-agent: *               # Tous les robots

Attention avec User-agent: * : il s'applique à tous les bots sauf les AdsBot Google, qui doivent être nommés explicitement.



Disallow et Allow : comment les combiner


Bloquer un répertoire entier



User-agent: *
Disallow: /espace-client/

Bloquer un répertoire sauf une page



User-agent: Googlebot
Disallow: /dossier/
Allow: /dossier/page-importante.html

Bloquer des URLs avec paramètres (e-commerce)



User-agent: *
Disallow: /*?couleur=
Disallow: /*?tri=
Disallow: /*?page=

Priorité des règles : en cas de conflit entre Disallow et Allow, la règle avec le chemin le plus long (le plus spécifique) l'emporte.



Bloquer Googlebot : quand et comment


Bloquer Googlebot n'est utile que dans des cas précis :


  • Pages d'administration (/wp-admin/)

  • Résultats de recherche interne (/recherche/)

  • Pages de filtres e-commerce générant du contenu dupliqué

  • Environnements de staging ou de préproduction


User-agent: Googlebot
Disallow: /staging/
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Ne jamais bloquer Googlebot sur : les pages de contenu, les CSS et JS nécessaires au rendu, les images indexées dans Google Images.



Les erreurs courantes à éviter absolument


1. Bloquer tout le site par erreur



# DANGER : bloque tout le site
User-agent: *
Disallow: / 

Cette configuration, souvent issue d'un environnement de préproduction mis en ligne par erreur, rend votre site invisible à tous les moteurs de recherche.


2. Confondre blocage de crawl et désindexation


Bloquer une page dans robots.txt ne la supprime pas de l'index Google. Si la page est déjà indexée ou reçoit des liens externes, elle peut continuer à apparaître dans les SERPs — parfois sans extrait (snippet).


Pour désindexer : utilisez noindex via la balise meta ou l'en-tête HTTP X-Robots-Tag.


3. Bloquer les ressources CSS et JavaScript


Si Googlebot ne peut pas accéder aux fichiers CSS et JS, il ne peut pas rendre vos pages correctement. Cela nuit directement à la compréhension et à l'indexation de votre contenu.


4. Vouloir cacher du contenu sensible


Le fichier robots.txt est public. N'importe qui peut le lire. Pour protéger du contenu confidentiel, utilisez une protection par mot de passe ou des restrictions serveur.


5. Oublier les sous-domaines


Chaque sous-domaine (blog.votresite.fr, shop.votresite.fr) nécessite son propre fichier robots.txt à sa racine.



Robots.txt et budget de crawl


Le budget de crawl est le nombre de pages que Googlebot explore sur votre site dans un laps de temps donné. Sur les grands sites, il est limité.


Un robots.txt bien configuré permet de :


  • Concentrer le crawl sur vos pages stratégiques (fiches produits, articles, pages piliers)

  • Éviter le gaspillage sur les pages de filtres, de tri, de pagination ou d'administration

  • Améliorer la fréquence d'exploration de vos nouveaux contenus


Associez toujours votre robots.txt à un sitemap XML pour indiquer positivement à Google quelles pages explorer en priorité.



Bonnes pratiques robots.txt en 2025-2026


  • Testez avant de publier avec l'outil de test robots.txt de Google Search Console

  • Déclarez votre sitemap dans le fichier : Sitemap: https://votresite.fr/sitemap.xml

  • Ajoutez des commentaires (#) pour documenter chaque règle — utile pour les équipes

  • Versionnez le fichier (Git) pour tracer les modifications

  • Auditez après chaque migration ou refonte de site

  • Gérez les bots IA : bloquez GPTBot (OpenAI) ou ClaudeBot (Anthropic) si vous ne souhaitez pas que votre contenu serve à l'entraînement de modèles IA


Exemple de configuration WordPress recommandée



User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/cache/
Disallow: /*?s=

Sitemap: https://votresite.fr/sitemap.xml


Comment tester votre fichier robots.txt


Google Search Console est l'outil de référence. Il simule le comportement de Googlebot et détecte les erreurs de syntaxe.


Accès : Google Search Console > Paramètres > Testeur robots.txt


Autres outils :


  • Screaming Frog — audit complet du crawl

  • TechnicalSEO.com Robots.txt Tester — utilise la même bibliothèque open-source que Google

  • Ahrefs et Semrush — détection des ressources bloquées par erreur



FAQ — robots.txt SEO


Le fichier robots.txt est-il obligatoire ?


Non. En l'absence de fichier, les robots peuvent explorer tout le site. Un fichier vide produit le même effet. Il devient utile dès que vous avez des sections à exclure du crawl.


robots.txt bloque-t-il l'indexation d'une page ?


Non. Il bloque le crawl. Une page bloquée dans robots.txt peut encore apparaître dans Google si elle reçoit des liens externes. Pour empêcher l'indexation, utilisez la balise noindex.


Que se passe-t-il si mon robots.txt contient une erreur ?


Si Google ne peut pas lire le fichier, il peut arrêter d'explorer le site. Si le fichier contient Disallow: / par erreur, toutes les pages peuvent disparaître des résultats.


Peut-on bloquer un bot IA avec robots.txt ?


Oui, les principaux bots IA (GPTBot, ClaudeBot, etc.) respectent généralement les directives robots.txt. Mais comme pour les moteurs de recherche, rien ne les y oblige techniquement.


Faut-il un robots.txt différent pour chaque sous-domaine ?


Oui. Chaque sous-domaine doit avoir son propre fichier robots.txt à sa racine.


Quelle est la taille maximale d'un fichier robots.txt ?


500 ko. Au-delà, Google ignore les directives supplémentaires.


Comment savoir si Googlebot est bloqué par mon robots.txt ?


Utilisez le testeur robots.txt dans Google Search Console. Vous pouvez tester n'importe quelle URL pour voir si elle est bloquée ou autorisée.


robots.txt et sitemap XML, quelle différence ?


Le robots.txt dit ce que les bots ne doivent pas explorer. Le sitemap XML dit ce qu'ils devraient explorer. Les deux sont complémentaires. Consultez notre article sur le sitemap XML pour en savoir plus.


À propos de l'auteur


Rémy Bartocci, consultant SEO à Aix-en-Provence depuis 4 ans. Fondateur de l'agence Wix Studio X designs et créateur du blog Life in Aix, propulsé à plus de 10 000 sessions mensuelles par le SEO. Plus de 200 clients accompagnés.



 
 
bottom of page