Robots.txt è un file di testo che gli amministratori Web utilizzano per raccontare robot Web (principalmente robot di motori di ricerca) come strisciare le pagine del loro sito Web. Il file Robots.txt fa parte del Robot Exclusion Protocol (Rep), una serie di standard Web che regolano il modo in cui i robot esplorano il Web, l'accesso e il materiale indice e lo servono alle persone. Il rappresentante contiene anche direttive come meta robot e istruzioni su come i motori di ricerca dovrebbero interpretare i collegamenti su una pagina, sottodirectory o sito.
In realtà, i file robot.txt specificano se gli agenti utente specifici (software di crawling Web) sono autorizzati a strisciare determinate aree del sito Web. Il comportamento degli agenti selezionati o di tutti gli utenti è "non consentito" o "consentito" in queste istruzioni di scansione.
Qual è lo scopo di Robots.txt?
Le funzioni primarie dei motori di ricerca sono di:
Strisciando il web per materiale; classificare quel contenuto in modo che venga consegnato ai cercatori di informazioni.
I motori di ricerca scansionano i siti Web seguendo i collegamenti da un sito all'altro, alla fine strisciando miliardi di connessioni e pagine Web. "Spidering" è un termine usato per descrivere questa attività strisciante.
Il crawler di ricerca cercherà un file robots.txt dopo l'atterraggio su un sito Web ma prima di rapirlo. Il crawler lo leggerà prima di trovarlo, passando alla pagina successiva. Le informazioni ottenute nel file robot.txt dirigeranno il successivo comportamento crawler su questo sito poiché include informazioni su come il motore di ricerca dovrebbe strisciare. Se non ci sono direttive nel file robot.txt, se un agente di attività utente è vietato o se il sito non ha un file robots.txt, striscia altre informazioni sul sito.
Usi di robot.txt
L'accesso a crawler ad alcune aree del tuo sito è controllato utilizzando i file robot.txt. Mentre questo può essere piuttosto dannoso se impedisci erroneamente Googlebot di esplorare l'intero sito (!!), ci sono momenti in cui un file robots.txt può essere utile.
Di seguito sono riportati alcuni esempi di casi d'uso frequenti:
Impedisce al materiale duplicato di mostrare le pagine dei risultati dei motori di ricerca (SERP). Vale la pena notare che i meta robot sono spesso un'opzione superiore per questo.
Intere aree di un sito Web possono essere rese private. Considera l'area di gestione temporanea per il tuo team di ingegneria.
Mantengono le pagine dei risultati di ricerca interni di apparire in una pagina dei risultati dei motori di ricerca pubblici.
Definizione degli indirizzi della Sitemap
Mantenere alcuni file sul tuo sito Web di essere indicizzato dai motori di ricerca (immagini, PDF, ecc.)
Definiscono un ritardo di scansione per evitare di sovraccaricare i server quando i crawler caricano molti pezzi di materiale contemporaneamente.
Alcune cose da sapere su robot.txt:
Un file robots.txt deve essere inserito nella directory di alto livello del sito Web.
Il file deve essere denominato "robots.txt" perché è sensibile al caso.
Il tuo file robots.txt può essere ignorato da alcuni agenti utente (robot). È particolarmente vero per i crawler più malevoli, come robot di malware e raschiatori di indirizzi e -mail.
Il file /robots.txt è aperto al pubblico. Implica che chiunque possa vedere quali siti vuoi strisciare e cosa non fai, quindi non usarli per nascondere le informazioni personali.
La posizione delle sitemap collegate a questo dominio dovrebbe essere specificata nella parte inferiore del file robot.txt come best practice.
Sei interessato a saperne di più sul testo del robot? Quindi visitare il sito web di Seahawk Media per questo.