Robots.txt

Txt dei robot

Il file robots.txt è un file di testo che gli amministratori del web utilizzano per indicare ai robot del web (principalmente quelli dei motori di ricerca) come effettuare il crawling delle pagine del loro sito. Il file robots.txt fa parte del protocollo di esclusione dei robot (REP), un insieme di standard web che regolano il modo in cui i robot esplorano il web, accedono al materiale, lo indicizzano e lo servono alle persone. Il REP contiene anche direttive come Meta robot e istruzioni su come i motori di ricerca devono interpretare i link di una pagina, di una sottodirectory o dell'intero sito.

In realtà, i file robots.txt specificano se determinati agenti utente (software di web-crawling) sono autorizzati o meno a eseguire il crawling di determinate aree del sito web. Il comportamento di alcuni o di tutti gli agenti utente è "non consentito" o "consentito" in queste istruzioni di crawling.

Qual è lo scopo di robots.txt?

Le funzioni principali dei motori di ricerca sono:

Cercare materiale sul web; categorizzare i contenuti in modo che vengano consegnati a chi cerca informazioni.

I motori di ricerca analizzano i siti web seguendo i link da un sito all'altro, arrivando a strisciare miliardi di connessioni e pagine web. "Spidering" è un termine utilizzato per descrivere questa attività di crawling.

Il crawler di ricerca cerca un file robots.txt dopo essere arrivato su un sito web, ma prima di spiderlo. Il crawler lo leggerà prima di trovarlo e passerà alla pagina successiva. Le informazioni ottenute nel file robots.txt indirizzeranno il comportamento successivo del crawler sul sito, poiché includono informazioni su come il motore di ricerca deve effettuare il crawling. Se non ci sono direttive nel file robots.txt, se un agente di attività dell'utente è vietato o se il sito non ha un file robots.txt, il motore di ricerca effettuerà il crawling di altre informazioni sul sito.

Usi di robots.txt

L'accesso dei crawler ad alcune aree del sito è controllato tramite file robots.txt. Sebbene ciò possa essere piuttosto dannoso se si impedisce erroneamente a Googlebot di esplorare l'intero sito (! ), ci sono casi in cui un file robots.txt può essere utile.

Di seguito sono riportati alcuni esempi di casi d'uso frequenti:

Impedisce che il materiale duplicato venga visualizzato nelle pagine dei risultati dei motori di ricerca (SERP). Vale la pena di notare che i meta robot sono spesso un'opzione superiore per questo scopo.

È possibile rendere private intere aree di un sito web. Considerate l'area di sosta per il vostro team di ingegneri.

Impediscono alle pagine dei risultati di ricerca interni di apparire nella pagina pubblica dei risultati del motore di ricerca.

Definizione dell'indirizzo (s) della sitemap

Impedire che alcuni file del vostro sito web vengano indicizzati dai motori di ricerca (immagini, PDF, ecc.).

Definiscono un ritardo di crawl per evitare di sovraccaricare i server quando i crawler caricano molti materiali contemporaneamente.

Alcune cose da sapere su robots.txt: 

Un file robots.txt deve essere inserito nella directory di primo livello del sito web.

Il file deve essere chiamato "robots.txt" perché è sensibile alle maiuscole e alle minuscole.

Il file robots.txt può essere ignorato da alcuni user agent (robot). Questo vale soprattutto per i crawler più malevoli, come i robot malware e gli scrapers di indirizzi e-mail.

Il file /robots.txt è aperto al pubblico. Ciò implica che chiunque può vedere quali siti si vogliono crawlare e quali no, quindi non usatelo per nascondere informazioni personali.

La posizione delle sitemap collegate a questo dominio dovrebbe essere specificata in fondo al file robots.txt come prassi ottimale.

Siete interessati a saperne di più sul testo del robot? Allora visitate il sito web di Seahawk Media.

ricerca organica
Glossario WordPress
Komal Bothra

Che cos'è la ricerca organica?

La ricerca organica è il processo di acquisizione di traffico verso il proprio sito web attraverso la ricerca non remunerata o

Komal Bothra 7 febbraio 2023

Perché le FAQ sono essenziali per il vostro negozio WooCommerce?

La pagina FAQ (Frequently Asked Questions) è un'aggiunta comune ai siti web. Essa

WordPress
Komal Bothra 7 febbraio 2023

Perché il PageRank è il fattore più importante per la SEO?

Probabilmente avrete già sentito parlare di SEO, ma quali sono i fattori principali per ottenere una

SEO
Komal Bothra 6 febbraio 2023

Che cos'è il tasso di conversione?

Il tasso di conversione è la percentuale di visitatori di un sito web che compiono un'azione di conversione.

Glossario SEO

Iniziare con Seahawk

Registratevi nella nostra app per visualizzare i nostri prezzi e ottenere sconti.