Robots.txt

Robots txt

Robots.txt es un archivo de texto que los administradores de la web utilizan para indicar a los robots de la web (principalmente a los robots de los motores de búsqueda) cómo rastrear las páginas de su sitio web. El archivo robots.txt forma parte del protocolo de exclusión de robots (REP), un conjunto de normas web que rigen la forma en que los robots exploran la web, acceden e indexan el material y lo sirven a las personas. El REP también contiene directivas tales como Meta robots e instrucciones sobre cómo los motores de búsqueda deben interpretar los enlaces en una página, subdirectorio o en todo el sitio.

En realidad, los archivos robots.txt especifican si determinados agentes de usuario (software de rastreo web) están autorizados a rastrear determinadas áreas del sitio web. En estas instrucciones de rastreo, el comportamiento de determinados agentes de usuario o de todos ellos está "prohibido" o "permitido".

¿Para qué sirve el archivo robots.txt?

Las funciones principales de los motores de búsqueda son:

Rastrear la web en busca de material; clasificar ese contenido para que llegue a los buscadores de información.

Los motores de búsqueda escanean los sitios web siguiendo los enlaces de un sitio a otro, llegando a rastrear miles de millones de conexiones y páginas web. "Spidering" es un término utilizado para describir esta actividad de rastreo.

El rastreador de búsqueda buscará un archivo robots.txt después de aterrizar en un sitio web pero antes de rastrearlo. El rastreador lo leerá antes de encontrarlo, pasando a la siguiente página. La información obtenida en el archivo robots.txt dirigirá el comportamiento posterior del rastreador en este sitio, ya que incluye información sobre cómo debe rastrear el motor de búsqueda. Si no hay directivas en el archivo robots.txt, si un agente de actividad del usuario está prohibido, o si el sitio carece de un archivo robots.txt, rastreará otra información en el sitio.

Usos de robots.txt

El acceso del rastreador a algunas áreas de su sitio se controla mediante archivos robots.txt. Aunque esto puede ser bastante perjudicial si se impide por error que Googlebot explore todo el sitio (!!), hay ocasiones en las que un archivo robots.txt puede ser útil.

A continuación se presentan algunos ejemplos de casos de uso frecuentes:

Evita que el material duplicado aparezca en las páginas de resultados de los motores de búsqueda (SERP). Vale la pena señalar que los Meta robots son frecuentemente una opción superior para esto.

Áreas enteras de un sitio web pueden hacerse privadas. Piensa en el área de preparación de tu equipo de ingenieros.

Evitan que las páginas de resultados de búsqueda interna aparezcan en la página de resultados pública del motor de búsqueda.

Definir la dirección del mapa del sitio (s)

Evitar que algunos archivos de su sitio web sean indexados por los motores de búsqueda (imágenes, PDFs, etc.)

Definen un retardo de rastreo para evitar sobrecargar sus servidores cuando los rastreadores cargan muchas piezas de material a la vez.

Algunas cosas que hay que saber sobre robots.txt: 

Debe colocarse un archivo robots.txt en el directorio de nivel superior del sitio web.

El archivo debe llamarse "robots.txt" porque distingue entre mayúsculas y minúsculas.

Su archivo robots.txt puede ser ignorado por algunos agentes de usuario (robots). Esto es especialmente cierto para los rastreadores más malévolos, como los robots de malware y los raspadores de direcciones de correo electrónico.

El archivo /robots.txt está abierto al público. Implica que cualquiera puede ver qué sitios quieres rastrear y cuáles no, así que no los utilices para ocultar información personal.

La ubicación de los mapas de sitio vinculados con este dominio debe especificarse en la parte inferior del archivo robots.txt como mejor práctica.

¿Está interesado en saber más sobre el texto robótico? Entonces visite el sitio web de Seahawk Media para ello.

Entradas relacionadas

búsqueda orgánica
Glosario de WordPress
Komal Bothra

¿Qué es la búsqueda orgánica?

La búsqueda orgánica es el proceso de atraer tráfico a su sitio web a través de medios no remunerados o

Pulse aquí
Glosario de WordPress
Komal Bothra

¿Qué es Press This en WordPress?

Prensa Esta es una función de WordPress que permite a los usuarios rápida y fácilmente

Komal Bothra 7 de febrero de 2023

¿Por qué las FAQs son esenciales para tu tienda WooCommerce?

Una FAQ, o Frequently Asked Questions, la página es una adición común a los sitios web. En ella

WordPress
Komal Bothra 7 de febrero de 2023

¿Por qué PageRank es el factor más importante para SEO?

Seguramente ya habrá oído hablar del SEO, pero ¿cuáles son los principales factores para conseguir un

SEO
Komal Bothra 6 de febrero de 2023

¿Qué es la tasa de conversión?

La tasa de conversión es el porcentaje de visitantes de un sitio web que realizan una acción de conversión

Glosario SEO

Empezar con Seahawk

Regístrate en nuestra app para ver nuestros precios y obtener descuentos.