technique

ClaudeBot et AnthropicBot : guide complet 2026

Les crawlers d'Anthropic, leur fonctionnement, leur respect du robots.txt et leur impact sur ta visibilité.

Mehdi Benali
 
Illustration sur l'optimisation SEO et la GEO
Illustration sur l'optimisation SEO et la GEO

Anthropic, le créateur de Claude, a déployé deux crawlers principaux : ClaudeBot et anthropic-ai. Contrairement à OpenAI qui est parfois critiqué pour son manque de transparence, Anthropic est perçue comme l’une des entreprises IA les plus respectueuses des éditeurs. Voici tout ce que tu dois savoir sur leurs bots pour bien les configurer sur ton site.

ClaudeBot, anthropic-ai, ClaudeUser : qui fait quoi

Anthropic utilise plusieurs user-agents selon les cas d’usage :

ClaudeBot

Le crawler principal d’Anthropic. Son rôle : explorer les sites web publics, lire leur contenu et l’utiliser pour alimenter les modèles Claude (entraînement + potentiel grounding en temps réel).

Mozilla/5.0 (compatible; ClaudeBot/1.0; +claudebot@anthropic.com)

anthropic-ai

Un user-agent secondaire, utilisé dans certains contextes de lecture en temps réel (quand un utilisateur pose une question et que Claude va chercher une page web en particulier).

Mozilla/5.0 (compatible; anthropic-ai/1.0)

ClaudeUser

Utilisé quand un utilisateur final de Claude demande explicitement au modèle de lire une page spécifique (ex : “résume cet article : https://tondomaine.fr/article”). C’est différent du crawling automatique.

Mozilla/5.0 (compatible; ClaudeUser/1.0)

La particularité Anthropic : le respect strict du robots.txt

Anthropic publie une documentation claire sur ses crawlers et respecte scrupuleusement les directives robots.txt. Si tu Disallow: / un de leurs user-agents, ils arrêtent immédiatement de crawler.

C’est un point important : si tu veux opt-out, ça fonctionne proprement avec Anthropic. Tu peux avoir confiance que tes directives sont respectées.

Configuration recommandée

Pour la grande majorité des sites (recommandé)

Autoriser tous les user-agents Anthropic :

User-agent: ClaudeBot
Allow: /

User-agent: anthropic-ai
Allow: /

User-agent: ClaudeUser
Allow: /

Pour bloquer l’entraînement mais autoriser les lectures à la demande

Si tu veux empêcher Anthropic d’utiliser ton contenu pour entraîner ses modèles mais autoriser les utilisateurs finaux de Claude à lire ton site :

User-agent: ClaudeBot
Disallow: /

User-agent: anthropic-ai
Disallow: /

User-agent: ClaudeUser
Allow: /

Cette configuration est intéressante pour les éditeurs qui veulent garder leur contenu hors des données d’entraînement tout en restant accessibles aux utilisateurs qui demandent explicitement à Claude d’aller lire leur page.

Pour bloquer intégralement

User-agent: ClaudeBot
Disallow: /

User-agent: anthropic-ai
Disallow: /

User-agent: ClaudeUser
Disallow: /

À utiliser seulement si tu as de bonnes raisons stratégiques (contenu premium, position éditoriale, etc).

Anthropic et le fair use

Anthropic s’est engagée publiquement, contrairement à certains concurrents, à respecter les mécanismes d’opt-out et à ne pas utiliser de contenu explicitement bloqué. C’est l’une des raisons pour lesquelles elle est préférée par beaucoup d’éditeurs.

Conséquence pratique : tu peux faire confiance à ton robots.txt avec Anthropic. Ce n’est pas toujours le cas avec d’autres crawlers moins bien documentés.

Comment ClaudeBot choisit les pages à crawler

Fréquence

Pour un site moyen : 1 à 2 visites par semaine. Pour un site populaire : plusieurs visites par jour. La fréquence augmente avec la popularité et la fraîcheur des contenus.

Profondeur

ClaudeBot suit les liens internes, avec une préférence pour les contenus textuels (il évite les pages sans contenu substantiel comme les pages de tag, les archives vides). Profondeur typique : 4-5 clics depuis la home.

Respect du Crawl-delay

Si tu définis un Crawl-delay dans ton robots.txt, ClaudeBot le respecte. Exemple pour limiter la fréquence :

User-agent: ClaudeBot
Allow: /
Crawl-delay: 5

5 secondes entre chaque requête. Utile si ton serveur est limité.

Comment Claude utilise ton contenu dans ses réponses

Quand un utilisateur pose une question à Claude, le modèle peut :

  1. Se baser sur sa mémoire d’entraînement (données crawlées par ClaudeBot jusqu’à son cutoff)
  2. Lire un document spécifique si l’utilisateur lui fournit via ClaudeUser ou s’il active la recherche web

Dans les deux cas, Claude tend à citer ses sources de manière plus explicite que GPT. C’est intéressant pour le GEO : les citations Claude sont traceables.

Optimiser spécifiquement pour Claude

Claude est reconnu pour être particulièrement sensible à la qualité du contenu. Plus que les autres LLM, il pénalise le contenu de faible qualité (mal écrit, superficiel, générique). Les leviers qui marchent le mieux :

1. Profondeur éditoriale

Claude préfère un article de 1500 mots bien documenté à 3 articles de 500 mots superficiels. Privilégie la profondeur.

2. Structure claire

H1 > H2 > H3 cohents, listes ordonnées, tableaux. Claude lit la structure et l’utilise pour organiser sa réponse.

3. Exemples concrets

Claude adore les exemples réels, chiffrés, cas d’usage. Les articles trop abstraits sont moins cités.

4. Sources citées

Si toi-même tu cites tes sources (liens vers études, institutions, rapports), Claude te considère comme un méta-source fiable et est plus enclin à te citer en retour.

5. Ton neutre et informatif

Claude favorise les contenus informatifs sur les contenus purement promotionnels. Garde ton ton éditorial, même si tu fais du marketing de contenu.

Vérification technique

Pour vérifier que ton site est bien crawlé par ClaudeBot :

grep -i "ClaudeBot\|anthropic-ai\|ClaudeUser" /var/log/nginx/access.log | tail -30

Tu devrais voir des requêtes récentes avec status 200. Si aucune ligne, ton site est peut-être trop récent/petit pour avoir attiré Claude ou tu as un blocage quelque part.

En résumé

Anthropic et ses crawlers (ClaudeBot, anthropic-ai, ClaudeUser) sont parmi les plus respectueux du web. Les autoriser est un choix rationnel pour 95% des marques, et Claude est souvent le moteur qui cite le plus naturellement avec des descriptions riches.

Pour aller plus loin : guide robots.txt pour les IA, GPTBot : autoriser ou bloquer, audit Pulsari.


Articles similaires

#claudebot#anthropicbot#crawler anthropic

Prends le pouls de ta visibilité IA

Teste si ta marque est citée par Claude et Gemini en 30 secondes. Gratuit, sans inscription.