Anthropic, le créateur de Claude, a déployé deux crawlers principaux : ClaudeBot et anthropic-ai. Contrairement à OpenAI qui est parfois critiqué pour son manque de transparence, Anthropic est perçue comme l’une des entreprises IA les plus respectueuses des éditeurs. Voici tout ce que tu dois savoir sur leurs bots pour bien les configurer sur ton site.
ClaudeBot, anthropic-ai, ClaudeUser : qui fait quoi
Anthropic utilise plusieurs user-agents selon les cas d’usage :
ClaudeBot
Le crawler principal d’Anthropic. Son rôle : explorer les sites web publics, lire leur contenu et l’utiliser pour alimenter les modèles Claude (entraînement + potentiel grounding en temps réel).
Mozilla/5.0 (compatible; ClaudeBot/1.0; +claudebot@anthropic.com)
anthropic-ai
Un user-agent secondaire, utilisé dans certains contextes de lecture en temps réel (quand un utilisateur pose une question et que Claude va chercher une page web en particulier).
Mozilla/5.0 (compatible; anthropic-ai/1.0)
ClaudeUser
Utilisé quand un utilisateur final de Claude demande explicitement au modèle de lire une page spécifique (ex : “résume cet article : https://tondomaine.fr/article”). C’est différent du crawling automatique.
Mozilla/5.0 (compatible; ClaudeUser/1.0)
La particularité Anthropic : le respect strict du robots.txt
Anthropic publie une documentation claire sur ses crawlers et respecte scrupuleusement les directives robots.txt. Si tu Disallow: / un de leurs user-agents, ils arrêtent immédiatement de crawler.
C’est un point important : si tu veux opt-out, ça fonctionne proprement avec Anthropic. Tu peux avoir confiance que tes directives sont respectées.
Configuration recommandée
Pour la grande majorité des sites (recommandé)
Autoriser tous les user-agents Anthropic :
User-agent: ClaudeBot
Allow: /
User-agent: anthropic-ai
Allow: /
User-agent: ClaudeUser
Allow: /
Pour bloquer l’entraînement mais autoriser les lectures à la demande
Si tu veux empêcher Anthropic d’utiliser ton contenu pour entraîner ses modèles mais autoriser les utilisateurs finaux de Claude à lire ton site :
User-agent: ClaudeBot
Disallow: /
User-agent: anthropic-ai
Disallow: /
User-agent: ClaudeUser
Allow: /
Cette configuration est intéressante pour les éditeurs qui veulent garder leur contenu hors des données d’entraînement tout en restant accessibles aux utilisateurs qui demandent explicitement à Claude d’aller lire leur page.
Pour bloquer intégralement
User-agent: ClaudeBot
Disallow: /
User-agent: anthropic-ai
Disallow: /
User-agent: ClaudeUser
Disallow: /
À utiliser seulement si tu as de bonnes raisons stratégiques (contenu premium, position éditoriale, etc).
Anthropic et le fair use
Anthropic s’est engagée publiquement, contrairement à certains concurrents, à respecter les mécanismes d’opt-out et à ne pas utiliser de contenu explicitement bloqué. C’est l’une des raisons pour lesquelles elle est préférée par beaucoup d’éditeurs.
Conséquence pratique : tu peux faire confiance à ton robots.txt avec Anthropic. Ce n’est pas toujours le cas avec d’autres crawlers moins bien documentés.
Comment ClaudeBot choisit les pages à crawler
Fréquence
Pour un site moyen : 1 à 2 visites par semaine. Pour un site populaire : plusieurs visites par jour. La fréquence augmente avec la popularité et la fraîcheur des contenus.
Profondeur
ClaudeBot suit les liens internes, avec une préférence pour les contenus textuels (il évite les pages sans contenu substantiel comme les pages de tag, les archives vides). Profondeur typique : 4-5 clics depuis la home.
Respect du Crawl-delay
Si tu définis un Crawl-delay dans ton robots.txt, ClaudeBot le respecte. Exemple pour limiter la fréquence :
User-agent: ClaudeBot
Allow: /
Crawl-delay: 5
5 secondes entre chaque requête. Utile si ton serveur est limité.
Comment Claude utilise ton contenu dans ses réponses
Quand un utilisateur pose une question à Claude, le modèle peut :
- Se baser sur sa mémoire d’entraînement (données crawlées par ClaudeBot jusqu’à son cutoff)
- Lire un document spécifique si l’utilisateur lui fournit via ClaudeUser ou s’il active la recherche web
Dans les deux cas, Claude tend à citer ses sources de manière plus explicite que GPT. C’est intéressant pour le GEO : les citations Claude sont traceables.
Optimiser spécifiquement pour Claude
Claude est reconnu pour être particulièrement sensible à la qualité du contenu. Plus que les autres LLM, il pénalise le contenu de faible qualité (mal écrit, superficiel, générique). Les leviers qui marchent le mieux :
1. Profondeur éditoriale
Claude préfère un article de 1500 mots bien documenté à 3 articles de 500 mots superficiels. Privilégie la profondeur.
2. Structure claire
H1 > H2 > H3 cohents, listes ordonnées, tableaux. Claude lit la structure et l’utilise pour organiser sa réponse.
3. Exemples concrets
Claude adore les exemples réels, chiffrés, cas d’usage. Les articles trop abstraits sont moins cités.
4. Sources citées
Si toi-même tu cites tes sources (liens vers études, institutions, rapports), Claude te considère comme un méta-source fiable et est plus enclin à te citer en retour.
5. Ton neutre et informatif
Claude favorise les contenus informatifs sur les contenus purement promotionnels. Garde ton ton éditorial, même si tu fais du marketing de contenu.
Vérification technique
Pour vérifier que ton site est bien crawlé par ClaudeBot :
grep -i "ClaudeBot\|anthropic-ai\|ClaudeUser" /var/log/nginx/access.log | tail -30
Tu devrais voir des requêtes récentes avec status 200. Si aucune ligne, ton site est peut-être trop récent/petit pour avoir attiré Claude ou tu as un blocage quelque part.
En résumé
Anthropic et ses crawlers (ClaudeBot, anthropic-ai, ClaudeUser) sont parmi les plus respectueux du web. Les autoriser est un choix rationnel pour 95% des marques, et Claude est souvent le moteur qui cite le plus naturellement avec des descriptions riches.
Pour aller plus loin : guide robots.txt pour les IA, GPTBot : autoriser ou bloquer, audit Pulsari.