robots.txt SEO : guide complet pour guider Googlebot efficacement

Rémy Bartocci
11 mai
6 min de lecture

TL;DR : Le fichier robots.txt est un fichier texte placé à la racine de votre site qui indique aux robots des moteurs de recherche quelles pages ils peuvent ou ne peuvent pas explorer. Il contrôle le crawl, pas l'indexation. Mal configuré, il peut faire disparaître vos pages des résultats de recherche. Bien utilisé, il optimise votre budget de crawl et oriente Googlebot vers vos contenus stratégiques. C'est un levier clé du pilier technique SEO.

Le fichier robots.txt est souvent le premier fichier que Googlebot consulte en arrivant sur votre site. Mal configuré, il peut bloquer l'accès à l'ensemble de vos pages et faire disparaître votre site des résultats de recherche. Bien utilisé, il oriente les robots vers vos contenus stratégiques et préserve votre budget de crawl. Ce guide vous explique comment le lire, le configurer et éviter les erreurs les plus courantes.

Prendre rendez-vous avec Rémy

Sommaire

Qu'est-ce que le fichier robots.txt ?
La syntaxe du fichier robots.txt
User-agent : cibler le bon robot
Disallow et Allow : comment les combiner
Bloquer Googlebot : quand et comment
Les erreurs courantes à éviter absolument
Robots.txt et budget de crawl
Bonnes pratiques robots.txt en 2025-2026
FAQ — robots.txt SEO

Qu'est-ce que le fichier robots.txt ?

Le fichier robots.txt est un fichier texte public, placé à la racine de votre domaine (votresite.com/robots.txt), qui donne des instructions aux robots d'exploration (crawlers) comme Googlebot ou Bingbot.

Ce qu'il fait :

Indique aux bots quelles URLs ils peuvent explorer
Optimise le budget de crawl en évitant les pages sans valeur SEO
Réduit la charge serveur générée par les robots

Ce qu'il ne fait pas :

Il ne bloque pas l'indexation d'une page déjà connue de Google
Il ne protège pas un contenu confidentiel (le fichier est public)
Il ne garantit pas que tous les robots respecteront ses directives

Règle d'or : robots.txt contrôle le crawl. Pour bloquer l'indexation, utilisez la balise <meta name="robots" content="noindex">.

Ce fichier s'inscrit directement dans votre stratégie d'indexation SEO : ce que Googlebot ne peut pas explorer, il ne peut pas indexer correctement.

La syntaxe du fichier robots.txt

Les 4 directives principales

Directive	Rôle	Exemple
User-agent	Désigne le robot ciblé	User-agent: Googlebot
Disallow	Bloque l'accès à un chemin	Disallow: /admin/
Allow	Autorise une exception dans un bloc bloqué	Allow: /admin/ajax.php
Sitemap	Indique l'emplacement du sitemap XML	Sitemap: https://exemple.fr/sitemap.xml

Exemple de fichier robots.txt minimal et correct


User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /recherche/
Disallow: /*?s=

Sitemap: https://votresite.fr/sitemap.xml

Règles de syntaxe à respecter

Le nom du fichier doit s'écrire exactement robots.txt (minuscules, au pluriel) — toute erreur le rend inutile
Les valeurs sont sensibles à la casse : /Admin/ et /admin/ sont deux chemins différents
Les commentaires s'ajoutent avec #
Le fichier doit peser moins de 500 ko — au-delà, Google ignore le reste des directives
Un seul fichier par domaine — chaque sous-domaine nécessite son propre fichier

User-agent : cibler le bon robot

User-agent: * s'applique à tous les robots. Vous pouvez cibler un bot spécifique :


User-agent: Googlebot       # Google uniquement
User-agent: Bingbot         # Bing uniquement
User-agent: GPTBot          # Bot d'entraînement OpenAI
User-agent: *               # Tous les robots

Attention avec User-agent: * : il s'applique à tous les bots sauf les AdsBot Google, qui doivent être nommés explicitement.

Disallow et Allow : comment les combiner

Bloquer un répertoire entier


User-agent: *
Disallow: /espace-client/

Bloquer un répertoire sauf une page


User-agent: Googlebot
Disallow: /dossier/
Allow: /dossier/page-importante.html

Bloquer des URLs avec paramètres (e-commerce)


User-agent: *
Disallow: /*?couleur=
Disallow: /*?tri=
Disallow: /*?page=

Priorité des règles : en cas de conflit entre Disallow et Allow, la règle avec le chemin le plus long (le plus spécifique) l'emporte.

Bloquer Googlebot : quand et comment

Bloquer Googlebot n'est utile que dans des cas précis :

Pages d'administration (/wp-admin/)
Résultats de recherche interne (/recherche/)
Pages de filtres e-commerce générant du contenu dupliqué
Environnements de staging ou de préproduction


User-agent: Googlebot
Disallow: /staging/
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Ne jamais bloquer Googlebot sur : les pages de contenu, les CSS et JS nécessaires au rendu, les images indexées dans Google Images.

Les erreurs courantes à éviter absolument

1. Bloquer tout le site par erreur


# DANGER : bloque tout le site
User-agent: *
Disallow: /

Cette configuration, souvent issue d'un environnement de préproduction mis en ligne par erreur, rend votre site invisible à tous les moteurs de recherche.

2. Confondre blocage de crawl et désindexation

Bloquer une page dans robots.txt ne la supprime pas de l'index Google. Si la page est déjà indexée ou reçoit des liens externes, elle peut continuer à apparaître dans les SERPs — parfois sans extrait (snippet).

Pour désindexer : utilisez noindex via la balise meta ou l'en-tête HTTP X-Robots-Tag.

3. Bloquer les ressources CSS et JavaScript

Si Googlebot ne peut pas accéder aux fichiers CSS et JS, il ne peut pas rendre vos pages correctement. Cela nuit directement à la compréhension et à l'indexation de votre contenu.

4. Vouloir cacher du contenu sensible

Le fichier robots.txt est public. N'importe qui peut le lire. Pour protéger du contenu confidentiel, utilisez une protection par mot de passe ou des restrictions serveur.

5. Oublier les sous-domaines

Chaque sous-domaine (blog.votresite.fr, shop.votresite.fr) nécessite son propre fichier robots.txt à sa racine.

Robots.txt et budget de crawl

Le budget de crawl est le nombre de pages que Googlebot explore sur votre site dans un laps de temps donné. Sur les grands sites, il est limité.

Un robots.txt bien configuré permet de :

Concentrer le crawl sur vos pages stratégiques (fiches produits, articles, pages piliers)
Éviter le gaspillage sur les pages de filtres, de tri, de pagination ou d'administration
Améliorer la fréquence d'exploration de vos nouveaux contenus

Associez toujours votre robots.txt à un sitemap XML pour indiquer positivement à Google quelles pages explorer en priorité.

Bonnes pratiques robots.txt en 2025-2026

Testez avant de publier avec l'outil de test robots.txt de Google Search Console
Déclarez votre sitemap dans le fichier : Sitemap: https://votresite.fr/sitemap.xml
Ajoutez des commentaires (#) pour documenter chaque règle — utile pour les équipes
Versionnez le fichier (Git) pour tracer les modifications
Auditez après chaque migration ou refonte de site
Gérez les bots IA : bloquez GPTBot (OpenAI) ou ClaudeBot (Anthropic) si vous ne souhaitez pas que votre contenu serve à l'entraînement de modèles IA

Exemple de configuration WordPress recommandée


User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/cache/
Disallow: /*?s=

Sitemap: https://votresite.fr/sitemap.xml

Comment tester votre fichier robots.txt

Google Search Console est l'outil de référence. Il simule le comportement de Googlebot et détecte les erreurs de syntaxe.

Accès : Google Search Console > Paramètres > Testeur robots.txt

Autres outils :

Screaming Frog — audit complet du crawl
TechnicalSEO.com Robots.txt Tester — utilise la même bibliothèque open-source que Google
Ahrefs et Semrush — détection des ressources bloquées par erreur

FAQ — robots.txt SEO

Le fichier robots.txt est-il obligatoire ?

Non. En l'absence de fichier, les robots peuvent explorer tout le site. Un fichier vide produit le même effet. Il devient utile dès que vous avez des sections à exclure du crawl.

robots.txt bloque-t-il l'indexation d'une page ?

Non. Il bloque le crawl. Une page bloquée dans robots.txt peut encore apparaître dans Google si elle reçoit des liens externes. Pour empêcher l'indexation, utilisez la balise noindex.

Que se passe-t-il si mon robots.txt contient une erreur ?

Si Google ne peut pas lire le fichier, il peut arrêter d'explorer le site. Si le fichier contient Disallow: / par erreur, toutes les pages peuvent disparaître des résultats.

Peut-on bloquer un bot IA avec robots.txt ?

Oui, les principaux bots IA (GPTBot, ClaudeBot, etc.) respectent généralement les directives robots.txt. Mais comme pour les moteurs de recherche, rien ne les y oblige techniquement.

Faut-il un robots.txt différent pour chaque sous-domaine ?

Oui. Chaque sous-domaine doit avoir son propre fichier robots.txt à sa racine.

Quelle est la taille maximale d'un fichier robots.txt ?

500 ko. Au-delà, Google ignore les directives supplémentaires.

Comment savoir si Googlebot est bloqué par mon robots.txt ?

Utilisez le testeur robots.txt dans Google Search Console. Vous pouvez tester n'importe quelle URL pour voir si elle est bloquée ou autorisée.

robots.txt et sitemap XML, quelle différence ?

Le robots.txt dit ce que les bots ne doivent pas explorer. Le sitemap XML dit ce qu'ils devraient explorer. Les deux sont complémentaires. Consultez notre article sur le sitemap XML pour en savoir plus.

À propos de l'auteur

Rémy Bartocci, consultant SEO à Aix-en-Provence depuis 4 ans. Fondateur de l'agence Wix Studio X designs et créateur du blog Life in Aix, propulsé à plus de 10 000 sessions mensuelles par le SEO. Plus de 200 clients accompagnés.

Découvrir mes prestations