robots.txt SEO : guide complet pour guider Googlebot efficacement
- Rémy Bartocci

- 11 mai
- 6 min de lecture
TL;DR : Le fichier robots.txt est un fichier texte placé à la racine de votre site qui indique aux robots des moteurs de recherche quelles pages ils peuvent ou ne peuvent pas explorer. Il contrôle le crawl, pas l'indexation. Mal configuré, il peut faire disparaître vos pages des résultats de recherche. Bien utilisé, il optimise votre budget de crawl et oriente Googlebot vers vos contenus stratégiques. C'est un levier clé du pilier technique SEO.
Le fichier robots.txt est souvent le premier fichier que Googlebot consulte en arrivant sur votre site. Mal configuré, il peut bloquer l'accès à l'ensemble de vos pages et faire disparaître votre site des résultats de recherche. Bien utilisé, il oriente les robots vers vos contenus stratégiques et préserve votre budget de crawl. Ce guide vous explique comment le lire, le configurer et éviter les erreurs les plus courantes.
Sommaire
Qu'est-ce que le fichier robots.txt ?
Le fichier robots.txt est un fichier texte public, placé à la racine de votre domaine (votresite.com/robots.txt), qui donne des instructions aux robots d'exploration (crawlers) comme Googlebot ou Bingbot.
Ce qu'il fait :
Indique aux bots quelles URLs ils peuvent explorer
Optimise le budget de crawl en évitant les pages sans valeur SEO
Réduit la charge serveur générée par les robots
Ce qu'il ne fait pas :
Il ne bloque pas l'indexation d'une page déjà connue de Google
Il ne protège pas un contenu confidentiel (le fichier est public)
Il ne garantit pas que tous les robots respecteront ses directives
Règle d'or : robots.txt contrôle le crawl. Pour bloquer l'indexation, utilisez la balise <meta name="robots" content="noindex">.
Ce fichier s'inscrit directement dans votre stratégie d'indexation SEO : ce que Googlebot ne peut pas explorer, il ne peut pas indexer correctement.
La syntaxe du fichier robots.txt
Les 4 directives principales
Directive | Rôle | Exemple |
User-agent | Désigne le robot ciblé | User-agent: Googlebot |
Disallow | Bloque l'accès à un chemin | Disallow: /admin/ |
Allow | Autorise une exception dans un bloc bloqué | Allow: /admin/ajax.php |
Sitemap | Indique l'emplacement du sitemap XML | Sitemap: https://exemple.fr/sitemap.xml |
Exemple de fichier robots.txt minimal et correct
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /recherche/
Disallow: /*?s=
Sitemap: https://votresite.fr/sitemap.xml
Règles de syntaxe à respecter
Le nom du fichier doit s'écrire exactement robots.txt (minuscules, au pluriel) — toute erreur le rend inutile
Les valeurs sont sensibles à la casse : /Admin/ et /admin/ sont deux chemins différents
Les commentaires s'ajoutent avec #
Le fichier doit peser moins de 500 ko — au-delà, Google ignore le reste des directives
Un seul fichier par domaine — chaque sous-domaine nécessite son propre fichier
User-agent : cibler le bon robot
User-agent: * s'applique à tous les robots. Vous pouvez cibler un bot spécifique :
User-agent: Googlebot # Google uniquement
User-agent: Bingbot # Bing uniquement
User-agent: GPTBot # Bot d'entraînement OpenAI
User-agent: * # Tous les robots
Attention avec User-agent: * : il s'applique à tous les bots sauf les AdsBot Google, qui doivent être nommés explicitement.
Disallow et Allow : comment les combiner
Bloquer un répertoire entier
User-agent: *
Disallow: /espace-client/
Bloquer un répertoire sauf une page
User-agent: Googlebot
Disallow: /dossier/
Allow: /dossier/page-importante.html
Bloquer des URLs avec paramètres (e-commerce)
User-agent: *
Disallow: /*?couleur=
Disallow: /*?tri=
Disallow: /*?page=
Priorité des règles : en cas de conflit entre Disallow et Allow, la règle avec le chemin le plus long (le plus spécifique) l'emporte.
Bloquer Googlebot : quand et comment
Bloquer Googlebot n'est utile que dans des cas précis :
Pages d'administration (/wp-admin/)
Résultats de recherche interne (/recherche/)
Pages de filtres e-commerce générant du contenu dupliqué
Environnements de staging ou de préproduction
User-agent: Googlebot
Disallow: /staging/
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Ne jamais bloquer Googlebot sur : les pages de contenu, les CSS et JS nécessaires au rendu, les images indexées dans Google Images.
Les erreurs courantes à éviter absolument
1. Bloquer tout le site par erreur
# DANGER : bloque tout le site
User-agent: *
Disallow: /
Cette configuration, souvent issue d'un environnement de préproduction mis en ligne par erreur, rend votre site invisible à tous les moteurs de recherche.
2. Confondre blocage de crawl et désindexation
Bloquer une page dans robots.txt ne la supprime pas de l'index Google. Si la page est déjà indexée ou reçoit des liens externes, elle peut continuer à apparaître dans les SERPs — parfois sans extrait (snippet).
Pour désindexer : utilisez noindex via la balise meta ou l'en-tête HTTP X-Robots-Tag.
3. Bloquer les ressources CSS et JavaScript
Si Googlebot ne peut pas accéder aux fichiers CSS et JS, il ne peut pas rendre vos pages correctement. Cela nuit directement à la compréhension et à l'indexation de votre contenu.
4. Vouloir cacher du contenu sensible
Le fichier robots.txt est public. N'importe qui peut le lire. Pour protéger du contenu confidentiel, utilisez une protection par mot de passe ou des restrictions serveur.
5. Oublier les sous-domaines
Chaque sous-domaine (blog.votresite.fr, shop.votresite.fr) nécessite son propre fichier robots.txt à sa racine.
Robots.txt et budget de crawl
Le budget de crawl est le nombre de pages que Googlebot explore sur votre site dans un laps de temps donné. Sur les grands sites, il est limité.
Un robots.txt bien configuré permet de :
Concentrer le crawl sur vos pages stratégiques (fiches produits, articles, pages piliers)
Éviter le gaspillage sur les pages de filtres, de tri, de pagination ou d'administration
Améliorer la fréquence d'exploration de vos nouveaux contenus
Associez toujours votre robots.txt à un sitemap XML pour indiquer positivement à Google quelles pages explorer en priorité.
Bonnes pratiques robots.txt en 2025-2026
Testez avant de publier avec l'outil de test robots.txt de Google Search Console
Déclarez votre sitemap dans le fichier : Sitemap: https://votresite.fr/sitemap.xml
Ajoutez des commentaires (#) pour documenter chaque règle — utile pour les équipes
Versionnez le fichier (Git) pour tracer les modifications
Auditez après chaque migration ou refonte de site
Gérez les bots IA : bloquez GPTBot (OpenAI) ou ClaudeBot (Anthropic) si vous ne souhaitez pas que votre contenu serve à l'entraînement de modèles IA
Exemple de configuration WordPress recommandée
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/cache/
Disallow: /*?s=
Sitemap: https://votresite.fr/sitemap.xml
Comment tester votre fichier robots.txt
Google Search Console est l'outil de référence. Il simule le comportement de Googlebot et détecte les erreurs de syntaxe.
Accès : Google Search Console > Paramètres > Testeur robots.txt
Autres outils :
Screaming Frog — audit complet du crawl
TechnicalSEO.com Robots.txt Tester — utilise la même bibliothèque open-source que Google
Ahrefs et Semrush — détection des ressources bloquées par erreur
FAQ — robots.txt SEO
Le fichier robots.txt est-il obligatoire ?
Non. En l'absence de fichier, les robots peuvent explorer tout le site. Un fichier vide produit le même effet. Il devient utile dès que vous avez des sections à exclure du crawl.
robots.txt bloque-t-il l'indexation d'une page ?
Non. Il bloque le crawl. Une page bloquée dans robots.txt peut encore apparaître dans Google si elle reçoit des liens externes. Pour empêcher l'indexation, utilisez la balise noindex.
Que se passe-t-il si mon robots.txt contient une erreur ?
Si Google ne peut pas lire le fichier, il peut arrêter d'explorer le site. Si le fichier contient Disallow: / par erreur, toutes les pages peuvent disparaître des résultats.
Peut-on bloquer un bot IA avec robots.txt ?
Oui, les principaux bots IA (GPTBot, ClaudeBot, etc.) respectent généralement les directives robots.txt. Mais comme pour les moteurs de recherche, rien ne les y oblige techniquement.
Faut-il un robots.txt différent pour chaque sous-domaine ?
Oui. Chaque sous-domaine doit avoir son propre fichier robots.txt à sa racine.
Quelle est la taille maximale d'un fichier robots.txt ?
500 ko. Au-delà, Google ignore les directives supplémentaires.
Comment savoir si Googlebot est bloqué par mon robots.txt ?
Utilisez le testeur robots.txt dans Google Search Console. Vous pouvez tester n'importe quelle URL pour voir si elle est bloquée ou autorisée.
robots.txt et sitemap XML, quelle différence ?
Le robots.txt dit ce que les bots ne doivent pas explorer. Le sitemap XML dit ce qu'ils devraient explorer. Les deux sont complémentaires. Consultez notre article sur le sitemap XML pour en savoir plus.
À propos de l'auteur
Rémy Bartocci, consultant SEO à Aix-en-Provence depuis 4 ans. Fondateur de l'agence Wix Studio X designs et créateur du blog Life in Aix, propulsé à plus de 10 000 sessions mensuelles par le SEO. Plus de 200 clients accompagnés.
