Robots.txt es un archivo de texto que los administradores de la web utilizan para indicar a los robots de la web (principalmente a los robots de los motores de búsqueda) cómo rastrear las páginas de su sitio web. El archivo robots.txt forma parte del protocolo de exclusión de robots (REP), un conjunto de normas web que rigen la forma en que los robots exploran la web, acceden e indexan el material y lo sirven a las personas. El REP también contiene directivas tales como Meta robots e instrucciones sobre cómo los motores de búsqueda deben interpretar los enlaces en una página, subdirectorio o en todo el sitio.
En realidad, los archivos robots.txt especifican si determinados agentes de usuario (software de rastreo web) están autorizados a rastrear determinadas áreas del sitio web. En estas instrucciones de rastreo, el comportamiento de determinados agentes de usuario o de todos ellos está "prohibido" o "permitido".
Contenido
¿Para qué sirve el archivo robots.txt?
Las funciones principales de los motores de búsqueda son:
Rastrear la web en busca de material; clasificar ese contenido para que llegue a los buscadores de información.
Los motores de búsqueda escanean los sitios web siguiendo los enlaces de un sitio a otro, llegando a rastrear miles de millones de conexiones y páginas web. "Spidering" es un término utilizado para describir esta actividad de rastreo.
El rastreador de búsqueda buscará un archivo robots.txt después de aterrizar en un sitio web pero antes de rastrearlo. El rastreador lo leerá antes de encontrarlo, pasando a la siguiente página. La información obtenida en el archivo robots.txt dirigirá el comportamiento posterior del rastreador en este sitio, ya que incluye información sobre cómo debe rastrear el motor de búsqueda. Si no hay directivas en el archivo robots.txt, si un agente de actividad del usuario está prohibido, o si el sitio carece de un archivo robots.txt, rastreará otra información en el sitio.
Usos de robots.txt
El acceso del rastreador a algunas áreas de su sitio se controla mediante archivos robots.txt. Aunque esto puede ser bastante perjudicial si se impide por error que Googlebot explore todo el sitio (!!), hay ocasiones en las que un archivo robots.txt puede ser útil.
A continuación se presentan algunos ejemplos de casos de uso frecuentes:
Evita que el material duplicado aparezca en las páginas de resultados de los motores de búsqueda (SERP). Vale la pena señalar que los Meta robots son frecuentemente una opción superior para esto.
Áreas enteras de un sitio web pueden hacerse privadas. Piensa en el área de preparación de tu equipo de ingenieros.
Evitan que las páginas de resultados de búsqueda interna aparezcan en la página de resultados pública del motor de búsqueda.
Definir la dirección del mapa del sitio (s)
Evitar que algunos archivos de su sitio web sean indexados por los motores de búsqueda (imágenes, PDFs, etc.)
Definen un retardo de rastreo para evitar sobrecargar sus servidores cuando los rastreadores cargan muchas piezas de material a la vez.
Algunas cosas que hay que saber sobre robots.txt:
Debe colocarse un archivo robots.txt en el directorio de nivel superior del sitio web.
El archivo debe llamarse "robots.txt" porque distingue entre mayúsculas y minúsculas.
Su archivo robots.txt puede ser ignorado por algunos agentes de usuario (robots). Esto es especialmente cierto para los rastreadores más malévolos, como los robots de malware y los raspadores de direcciones de correo electrónico.
El archivo /robots.txt está abierto al público. Implica que cualquiera puede ver qué sitios quieres rastrear y cuáles no, así que no los utilices para ocultar información personal.
La ubicación de los mapas de sitio vinculados con este dominio debe especificarse en la parte inferior del archivo robots.txt como mejor práctica.
¿Está interesado en saber más sobre el texto robótico? Entonces visite el sitio web de Seahawk Media para ello.