L’indexation est le précurseur du classement dans la recherche organique. Mais il y a des pages que vous ne voulez pas que les moteurs de recherche indexent et classent. C’est là que le «protocole d’exclusion des robots» entre en jeu.

REP peut exclure et inclure les robots d’exploration des moteurs de recherche. C’est donc un moyen de bloquer les robots ou de les accueillir – ou les deux. REP comprend des outils techniques tels que le fichier robots.txt, les plans de site XML et les directives de métadonnées et d’en-tête.

REP peut exclure et inclure les robots d’exploration des moteurs de recherche.

Gardez à l’esprit, cependant, que la conformité des robots d’exploration avec REP est volontaire. Les bons robots sont conformes, comme ceux des principaux moteurs de recherche.

Malheureusement, les mauvais robots ne dérangent pas. Des exemples sont des grattoirs qui collectent des informations pour les republier sur d’autres sites. Votre développeur doit bloquer les mauvais robots au niveau du serveur.

Le protocole d’exclusion des robots a été créé en 1994 par Martijn Koster, fondateur de trois premiers moteurs de recherche, frustré par les robots d’exploration de stress infligés à son site. En 2019, Google a proposé REP comme standard Internet officiel.

Chaque méthode REP a des capacités, des forces et des faiblesses. Vous pouvez les utiliser individuellement ou en combinaison pour atteindre des objectifs d’exploration.

Robots.txt

Le fichier robots.txt de Walmart.com « interdit » aux robots d’accéder à de nombreuses zones de son site.

Le fichier robots.txt est la première page que les bons robots visitent sur un site. Il est au même endroit et appelé la même chose (« robots.txt ») sur chaque site, comme dans site.com/robots.txt.

Utilisez le fichier robots.txt pour demander aux robots d’éviter des sections ou des pages spécifiques sur votre site. Lorsque de bons robots rencontrent ces demandes, ils se conforment généralement.

Par exemple, vous pouvez spécifier des pages que les bots doivent ignorer, telles que les pages du panier d’achat, les pages de remerciement et les profils utilisateur. Mais vous pouvez également demander aux robots d’explorer des pages spécifiques dans une section bloquée par ailleurs.

Dans sa forme la plus simple, un fichier robots.txt ne contient que deux éléments: a agent utilisateur et une directive. La plupart des sites souhaitent être indexés. Le fichier robots.txt le plus courant contient donc:

User-agent: * Interdire:

L’astérisque est un caractère générique qui indique «tous», ce qui signifie dans cet exemple que la directive s’applique à tous les bots. Le blanc Refuser indique que rien ne doit être interdit.

Vous pouvez limiter la agent utilisateur à des robots spécifiques. Par exemple, le fichier suivant empêcherait Googlebot d’indexer l’intégralité du site, ce qui entraînerait une incapacité à se classer dans la recherche naturelle.

User-agent: googlebotDisallow: /

Vous pouvez ajouter autant de lignes de refus et autoriser que nécessaire. L’exemple de fichier robots.txt suivant demande que Bingbot n’explore aucune page du / répertoire de compte d’utilisateur à l’exception de la page de connexion de l’utilisateur.

User-agent: bingbotDisallow: / user-account * Autoriser: /user-account/log-in.htm

Vous pouvez également utiliser des fichiers robots.txt pour demander des retards d’exploration lorsque des robots atteignent trop rapidement des pages de votre site et ont un impact sur les performances du serveur.

Chaque protocole de site Web (HTTPS, HTTP), domaine (site.com, mysite.com) et sous-domaine (www, boutique, pas de sous-domaine) nécessite son propre fichier robots.txt – même si le contenu est le même. Par exemple, le fichier robots.txt sur https://shop.site.com ne fonctionne pas pour le contenu hébergé sur http://www.site.com.

Lorsque vous modifiez le fichier robots.txt, testez toujours à l’aide de l’outil de test robots.txt dans Google Search Console avant de le lancer en direct. La syntaxe robots.txt prête à confusion et les erreurs peuvent être catastrophiques pour vos performances de recherche organique.

Pour plus d’informations sur la syntaxe, voir Robotstxt.org.

Sitemaps XML

Le plan du site XML d’Apple.com contient des références aux pages qu’Apple souhaite que les robots explorent.

Utilisez un plan du site XML pour informer les robots des moteurs de recherche de vos pages les plus importantes. Après avoir vérifié le fichier robots.txt, le deuxième arrêt des robots d’exploration est votre sitemap XML. Un plan de site peut avoir n’importe quel nom, mais il se trouve généralement à la racine du site, tel que site.com/sitemap.xml.

En plus d’un identifiant de version et d’une ouverture et fermeture urlset , les plans de site XML doivent contenir les deux et les balises qui identifient chaque URL bots doivent explorer, comme indiqué dans l’image ci-dessus. D’autres balises peuvent identifier la dernière date de modification de la page, la fréquence des changements et la priorité.

Les plans de site XML sont simples. Mais rappelez-vous trois choses essentielles.

  • Liez uniquement aux URL canoniques – celles que vous souhaitez classer par opposition aux URL pour le contenu en double.
  • Mettez à jour les fichiers sitemap aussi souvent que possible, de préférence avec un processus automatisé.
  • Gardez la taille du fichier en dessous de 50 Mo et le nombre d’URL en dessous de 50 000.

Les plans de site XML sont faciles à oublier. Il est courant que les plans de site contiennent d’anciennes URL ou du contenu en double. Vérifiez leur précision au moins une fois par trimestre.

De nombreux sites de commerce électronique ont plus de 50 000 URL. Dans ces cas, créez plusieurs fichiers de plan de site XML et liez-les tous dans un index de plan de site. L’index peut lui-même être lié à 50 000 plans de site d’une taille maximale de 50 Mo. Vous pouvez également utiliser la compression gzip pour réduire la taille de chaque sitemap et index.

Les plans de site XML peuvent également inclure des fichiers vidéo et des images pour optimiser la recherche d’images et la recherche de vidéos.

Les robots ne savent pas comment vous avez nommé votre sitemap XML. Incluez donc l’URL du plan du site dans votre fichier robots.txt, et également pour le télécharger dans la Google Search Console et les outils Bing pour les webmasters.

Pour en savoir plus sur les plans de site XML et leurs similitudes avec les plans de site HTML, voir «SEO: HTML, Explication des plans de site XML».

Pour plus d’informations sur la syntaxe et les attentes du plan de site XML, consultez Sitemaps.org.

Directives sur les métadonnées et les en-têtes

Les fichiers Robots.txt et les sitemaps XML excluent ou incluent généralement plusieurs pages à la fois. Les métadonnées REP fonctionnent au niveau de la page, dans une métatag tête du code HTML ou dans le cadre de la réponse HTTP que le serveur envoie avec une page individuelle.

La page du panier d’achat de Lululemon utilise une méta-étiquette de robot pour diriger les robots des moteurs de recherche afin de ne pas indexer la page ou transmettre l’autorité de lien via ses liens.

Les attributs REP les plus courants incluent:

  • Noindex. N’indexez pas la page sur laquelle se trouve la directive.
  • Pas de suivi. Ne transmettez pas l’autorité de lien à partir des liens sur la page.
  • Suivre. Passez l’autorité de lien à partir des liens sur la page, même si la page n’est pas indexée.

Lorsqu’elle est utilisée dans une métabalise de robots, la syntaxe ressemble à:

Bien qu’elle soit appliquée au niveau de la page – impactant une page à la fois – la balise meta robots peut être insérée de manière évolutive dans un modèle, ce qui placerait ensuite la balise sur chaque page.

le pas de suivi dans une balise d’ancrage arrête le flux d’autorité de lien, comme dans:

Sac de courses

La balise meta robots réside dans le code source d’une page. Mais ses directives peuvent s’appliquer aux types de fichiers non HTML tels que les PDF en l’utilisant dans la réponse HTTP. Cette méthode envoie la directive robots dans le cadre de la réponse du serveur lorsque le fichier est demandé.

Lorsqu’elle est utilisée dans l’en-tête HTTP du serveur, la commande ressemblerait à ceci:

X-Robots-Tag: noindex, nofollow

Comme les balises meta robots, la directive robots s’applique aux fichiers individuels. Mais cela peut s’appliquer à plusieurs des fichiers – tels que tous les fichiers PDF ou tous les fichiers d’un même répertoire – via la racine de votre site .htaccess ou httpd.conf fichier sur Apache, ou .conf fichier sur Nginx.

Pour une liste complète des attributs des robots et des exemples d’extraits de code, consultez le site des développeurs de Google.

Un robot doit accéder à un fichier pour détecter une directive robots. Par conséquent, même si les attributs liés à l’indexation peuvent réduire efficacement l’indexation, ils ne font rien pour préserver le budget d’exploration de votre site.

Si vous avez plusieurs pages avec noindex directives, un refus de robots.txt ferait un meilleur travail de blocage de l’exploration pour préserver votre budget d’exploration. Cependant, les moteurs de recherche sont lents à désindexer le contenu via un refus robots.txt si le contenu est déjà indexé.

Si vous devez désindexer le contenu et empêcher les robots de l’explorer, commencez par un attribut noindex (à désindexer), puis appliquez une interdiction dans le fichier robots.txt pour empêcher les robots d’exploration d’y accéder à l’avenir.