Robots.txt is een tekstbestand dat webbeheerders gebruiken om webrobots (voornamelijk zoekmachinerobots) te vertellen hoe ze de pagina's van hun website moeten crawlen. Het robots.txt-bestand maakt deel uit van het robots exclusion protocol (REP), een reeks webstandaarden die bepalen hoe robots het web verkennen, materiaal openen en indexeren, en het aan mensen aanbieden. Het REP bevat ook richtlijnen zoals Meta robots en instructies over hoe zoekmachines links op een pagina, subdirectory of site-breed moeten interpreteren.
In werkelijkheid geven robots.txt-bestanden aan of specifieke gebruikersagenten (web-crawling software) al dan niet toestemming krijgen om bepaalde delen van de website te crawlen. Het gedrag van bepaalde of alle gebruikersagenten wordt in deze crawlinstructies "niet toegestaan" of "toegestaan".
Wat is het doel van robots.txt?
De belangrijkste functies van zoekmachines zijn:
Het web doorzoeken op zoek naar materiaal; die inhoud categoriseren zodat hij bij de informatiezoekers terechtkomt.
Zoekmachines scannen websites door links van de ene site naar de andere te volgen, waarbij uiteindelijk miljarden verbindingen en webpagina's worden gecrawld. "Spidering" is een term die wordt gebruikt om deze crawlactiviteit te beschrijven.
De zoekcrawler zal een robots.txt-bestand zoeken nadat hij op een website is geland, maar voordat hij deze spidert. De crawler zal het lezen voordat hij het vindt en verder gaat naar de volgende pagina. De informatie in het robots.txt-bestand stuurt het latere gedrag van de crawler op deze site, omdat het informatie bevat over hoe de zoekmachine moet crawlen. Als er geen richtlijnen in het robots.txt-bestand staan, als een gebruiker-activiteitsagent verboden is, of als de site geen robots.txt-bestand heeft, zal de zoekmachine andere informatie op de site crawlen.
Gebruik van robots.txt
De toegang van crawlers tot sommige delen van uw site wordt geregeld met behulp van robots.txt-bestanden. Hoewel dit behoorlijk schadelijk kan zijn als u per ongeluk voorkomt dat Googlebot uw hele site kan verkennen (!! ), zijn er momenten waarop een robots.txt-bestand handig kan zijn.
Hieronder volgen enkele voorbeelden van veel voorkomende gebruikssituaties:
Het voorkomt dat duplicaatmateriaal wordt weergegeven op zoekmachine resultaten pagina's (SERPs). Het is vermeldenswaard dat Meta-robots hiervoor vaak een betere optie zijn.
Hele delen van een website kunnen privé worden gemaakt. Denk aan de verzamelplaats voor uw engineering team.
Zij verhinderen dat interne zoekresultatenpagina's verschijnen op een openbare zoekmachineresultatenpagina.
Definiëren van het adres van de sitemap (s)
Sommige bestanden op uw website worden niet geïndexeerd door zoekmachines (afbeeldingen, PDF's, enz.)
Zij definiëren een crawlvertraging om te voorkomen dat uw servers overbelast raken wanneer crawlers veel materiaal in één keer laden.
Wat dingen om te weten over robots.txt:
Een robots.txt bestand moet worden geplaatst in de top-level directory van de website.
Het bestand moet "robots.txt" heten omdat het hoofdlettergevoelig is.
Uw robots.txt-bestand kan door sommige gebruikersagenten (robots) worden genegeerd. Dit geldt vooral voor meer kwaadaardige crawlers, zoals malwarerobots en scrapers van e-mailadressen.
Het bestand /robots.txt is open voor het publiek. Dit houdt in dat iedereen kan zien welke sites je wilt crawlen en welke niet, dus gebruik ze niet om persoonlijke informatie te verbergen.
De locatie van sitemaps die aan dit domein zijn gekoppeld, moet als beste praktijk onderaan in het robots.txt-bestand worden gespecificeerd.
Bent u geïnteresseerd om meer te weten te komen over Robot tekst? Bezoek dan hiervoor de website van Seahawk Media.