Il file robots.txt è un file di testo che gli amministratori del web utilizzano per indicare ai robot del web (principalmente quelli dei motori di ricerca) come effettuare il crawling delle pagine del loro sito. Il file robots.txt fa parte del protocollo di esclusione dei robot (REP), un insieme di standard web che regolano il modo in cui i robot esplorano il web, accedono al materiale, lo indicizzano e lo servono alle persone. Il REP contiene anche direttive come Meta robot e istruzioni su come i motori di ricerca devono interpretare i link di una pagina, di una sottodirectory o dell'intero sito.
In realtà, i file robots.txt specificano se determinati agenti utente (software di web-crawling) sono autorizzati o meno a eseguire il crawling di determinate aree del sito web. Il comportamento di alcuni o di tutti gli agenti utente è "non consentito" o "consentito" in queste istruzioni di crawling.
Contenuti
Qual è lo scopo di robots.txt?
Le funzioni principali dei motori di ricerca sono:
Cercare materiale sul web; categorizzare i contenuti in modo che vengano consegnati a chi cerca informazioni.
I motori di ricerca analizzano i siti web seguendo i link da un sito all'altro, arrivando a strisciare miliardi di connessioni e pagine web. "Spidering" è un termine utilizzato per descrivere questa attività di crawling.
Il crawler di ricerca cerca un file robots.txt dopo essere arrivato su un sito web, ma prima di spiderlo. Il crawler lo leggerà prima di trovarlo e passerà alla pagina successiva. Le informazioni ottenute nel file robots.txt indirizzeranno il comportamento successivo del crawler sul sito, poiché includono informazioni su come il motore di ricerca deve effettuare il crawling. Se non ci sono direttive nel file robots.txt, se un agente di attività dell'utente è vietato o se il sito non ha un file robots.txt, il motore di ricerca effettuerà il crawling di altre informazioni sul sito.
Usi di robots.txt
L'accesso dei crawler ad alcune aree del sito è controllato tramite file robots.txt. Sebbene ciò possa essere piuttosto dannoso se si impedisce erroneamente a Googlebot di esplorare l'intero sito (! ), ci sono casi in cui un file robots.txt può essere utile.
Di seguito sono riportati alcuni esempi di casi d'uso frequenti:
Impedisce che il materiale duplicato venga visualizzato nelle pagine dei risultati dei motori di ricerca (SERP). Vale la pena di notare che i meta robot sono spesso un'opzione superiore per questo scopo.
È possibile rendere private intere aree di un sito web. Considerate l'area di sosta per il vostro team di ingegneri.
Impediscono alle pagine dei risultati di ricerca interni di apparire nella pagina pubblica dei risultati del motore di ricerca.
Definizione dell'indirizzo (s) della sitemap
Impedire che alcuni file del vostro sito web vengano indicizzati dai motori di ricerca (immagini, PDF, ecc.).
Definiscono un ritardo di crawl per evitare di sovraccaricare i server quando i crawler caricano molti materiali contemporaneamente.
Alcune cose da sapere su robots.txt:
Un file robots.txt deve essere inserito nella directory di primo livello del sito web.
Il file deve essere chiamato "robots.txt" perché è sensibile alle maiuscole e alle minuscole.
Il file robots.txt può essere ignorato da alcuni user agent (robot). Questo vale soprattutto per i crawler più malevoli, come i robot malware e gli scrapers di indirizzi e-mail.
Il file /robots.txt è aperto al pubblico. Ciò implica che chiunque può vedere quali siti si vogliono crawlare e quali no, quindi non usatelo per nascondere informazioni personali.
La posizione delle sitemap collegate a questo dominio dovrebbe essere specificata in fondo al file robots.txt come prassi ottimale.
Siete interessati a saperne di più sul testo del robot? Allora visitate il sito web di Seahawk Media.