Robots.txt

Écrit par : avatar de l'auteur Komal Bothra
avatar de l'auteur Komal Bothra
Hé, je m'appelle Komal. J'écris du contenu qui parle avec le cœur et qui fait que WordPress fonctionne pour vous. Donnons vie à vos idées !
Robots txt

Robots.txt est un fichier texte que les administrateurs Web utilisent pour indiquer aux robots Web (principalement les robots des moteurs de recherche) comment explorer les pages de leur site Web. Le fichier robots.txt fait partie du protocole d'exclusion des robots (REP), un ensemble de normes Web régissant la manière dont les robots explorent le Web, accèdent et indexent le matériel, et le diffusent aux utilisateurs. Le REP contient également des directives telles que les méta-robots et des instructions sur la manière dont les moteurs de recherche doivent interpréter les liens sur une page, un sous-répertoire ou à l'échelle du site.

En réalité, les fichiers robots.txt précisent si des agents utilisateurs spécifiques (logiciels d'exploration du Web) sont autorisés ou non à explorer certaines zones du site Web. Le comportement des agents utilisateurs sélectionnés ou de tous les agents utilisateurs est « interdit » ou « autorisé » dans ces instructions d'exploration.

Quel est le but du fichier robots.txt ?

Les principales fonctions des moteurs de recherche sont les suivantes :

Explorer le Web à la recherche de matériel ; catégoriser ce contenu afin qu'il soit transmis aux chercheurs d'informations.

Les moteurs de recherche analysent les sites Web en suivant les liens d’un site à l’autre, explorant finalement des milliards de connexions et de pages Web. « Spidering » est un terme utilisé pour décrire cette activité d'exploration.

Le robot d'exploration recherchera un fichier robots.txt après avoir atterri sur un site Web, mais avant de le parcourir. Le robot le lira avant de le trouver, passant à la page suivante. Les informations obtenues dans le fichier robots.txt orienteront le comportement ultérieur du robot d'exploration sur ce site, car elles incluent des informations sur la manière dont le moteur de recherche doit explorer. S'il n'y a aucune directive dans le fichier robots.txt, si un agent d'activité utilisateur est interdit ou si le site ne dispose pas d'un fichier robots.txt, il explorera d'autres informations sur le site.

Utilisations de robots.txt

L'accès des robots à certaines zones de votre site est contrôlé à l'aide de fichiers robots.txt. Bien que cela puisse être assez dangereux si vous empêchez par erreur Googlebot d'explorer l'ensemble de votre site (!!), il arrive parfois qu'un fichier robots.txt puisse s'avérer utile.

Voici quelques exemples de cas d’utilisation fréquents :

Il empêche l'affichage de documents en double sur les pages de résultats des moteurs de recherche (SERP). Il convient de noter que les robots Meta constituent souvent une option supérieure pour cela.

Des zones entières d’un site Web peuvent être rendues privées. Pensez à la zone de préparation de votre équipe d’ingénierie.

Ils empêchent les pages de résultats de recherche internes d’apparaître sur la page de résultats d’un moteur de recherche public.

Définir la ou les adresses du plan du site

Empêcher certains fichiers de votre site Web d'être indexés par les moteurs de recherche (images, PDF, etc.)

Ils définissent un délai d'exploration pour éviter de surcharger vos serveurs lorsque les robots chargent plusieurs éléments à la fois.

Quelques choses à savoir sur le fichier robots.txt : 

Un fichier robots.txt doit être placé dans le répertoire de niveau supérieur du site Web.

Le fichier doit être nommé « robots.txt » car il est sensible à la casse.

Votre fichier robots.txt peut être ignoré par certains agents utilisateurs (robots). Cela est particulièrement vrai pour les robots d'exploration les plus malveillants, tels que les robots malveillants et les grattoirs d'adresses e-mail.

Le fichier /robots.txt est ouvert au public. Cela implique que n'importe qui peut voir quels sites vous souhaitez explorer et lesquels vous ne souhaitez pas explorer, alors ne les utilisez pas pour cacher des informations personnelles.

L'emplacement des plans de site liés à ce domaine doit être spécifié au bas du fichier robots.txt, comme bonne pratique.

Souhaitez-vous en savoir plus sur le texte Robot ? Visitez ensuite le site Web de Seahawk Media pour cela.

WordPress est un puissant système de gestion de contenu (CMS) qui vous permet de créer et de gérer

Dans l'écosystème WordPress, un plugin est un logiciel qui améliore les fonctionnalités d'un site Web.

Un thème parent est un thème WordPress complet qui peut être utilisé tel quel ou

Commencez avec Seahawk

Inscrivez-vous sur notre application pour consulter nos tarifs et bénéficier de réductions.