Robots.txt

Geschreven door: avatar van de auteur Komal Bothra
avatar van de auteur Komal Bothra
Hé, ik ben Komal. Ik schrijf inhoud die vanuit het hart spreekt en WordPress voor u laat werken. Laten we uw ideeën tot leven brengen!
Robots txt

Robots.txt is een tekstbestand dat webbeheerders gebruiken om webrobots (voornamelijk robots van zoekmachines) te vertellen hoe ze de pagina's van hun website moeten crawlen. Het robots.txt-bestand maakt deel uit van het Robots Exclusion Protocol (REP), een reeks webstandaarden die bepalen hoe robots het internet verkennen, materiaal openen, indexeren en aan mensen aanbieden. De REP bevat ook richtlijnen zoals meta-robots en instructies over hoe zoekmachines links op een pagina, subdirectory of site-breed moeten interpreteren.

In werkelijkheid specificeren robots.txt-bestanden of specifieke user agents (webcrawlingsoftware) bepaalde websitegebieden wel of niet mogen crawlen. Het gedrag van geselecteerde of alle user agents is “niet toegestaan” of “toegestaan” in deze crawlinstructies.

Wat is het doel van robots.txt?

De primaire functies van zoekmachines zijn:

Het web doorzoeken op zoek naar materiaal; het categoriseren van die inhoud zodat deze wordt afgeleverd bij informatiezoekers.

Zoekmachines scannen websites door links van de ene site naar de andere te volgen en doorzoeken uiteindelijk miljarden verbindingen en webpagina's. ‘Spideren’ is een term die wordt gebruikt om deze kruipactiviteit te beschrijven.

De zoekcrawler zoekt naar een robots.txt-bestand nadat hij op een website is beland, maar voordat hij deze spidert. De crawler leest het voordat het wordt gevonden en gaat door naar de volgende pagina. De informatie die wordt verkregen in het robots.txt-bestand stuurt het daaropvolgende crawlgedrag op deze site aan, omdat het informatie bevat over hoe de zoekmachine moet crawlen. Als er geen richtlijnen in het robots.txt-bestand staan, als een agent voor gebruikersactiviteit verboden is, of als de site geen robots.txt-bestand heeft, zal deze andere informatie op de site crawlen.

Gebruik van robots.txt

Crawlertoegang tot bepaalde delen van uw site wordt beheerd met behulp van robots.txt-bestanden. Hoewel dit behoorlijk schadelijk kan zijn als u per ongeluk verhindert dat Googlebot uw hele site verkent (!!), zijn er momenten waarop een robots.txt-bestand handig kan zijn.

Hieronder volgen enkele voorbeelden van veelvoorkomende gebruiksscenario's:

Het voorkomt dat dubbel materiaal wordt weergegeven op de resultatenpagina’s van zoekmachines (SERP’s). Het is vermeldenswaard dat Meta-robots hiervoor vaak een superieure optie zijn.

Hele delen van een website kunnen privé worden gemaakt. Denk aan de verzamelplaats voor uw technische team.

Ze zorgen ervoor dat interne zoekresultatenpagina's niet op de resultatenpagina van een openbare zoekmachine verschijnen.

Het definiëren van de adres(sen) van de sitemap

Voorkomen dat bepaalde bestanden op uw website worden geïndexeerd door zoekmachines (afbeeldingen, pdf's, enz.)

Ze definiëren een crawlvertraging om te voorkomen dat uw servers overbelast raken wanneer crawlers veel stukken materiaal tegelijk laden.

Enkele dingen die u moet weten over robots.txt: 

Een robots.txt-bestand moet in de hoogste map van de website worden geplaatst.

Het bestand moet de naam “robots.txt” hebben, omdat het hoofdlettergevoelig is.

Uw robots.txt-bestand kan door sommige user-agents (robots) worden genegeerd. Dit geldt vooral voor kwaadaardigere crawlers, zoals malwarerobots en e-mailadresschrapers.

Het bestand /robots.txt is openbaar. Het houdt in dat iedereen kan zien welke sites u wilt doorzoeken en welke niet. Gebruik ze dus niet om persoonlijke informatie te verbergen.

De locatie van sitemaps die aan dit domein zijn gekoppeld, moet als best practice onderaan het robots.txt-bestand worden opgegeven.

Wilt u meer weten over Robottekst? hiervoor dan de website van Seahawk Media

Gerelateerde berichten

Wat is kleurentint

Wat is kleurentint?

Kleur speelt een essentiële rol in kunst, ontwerp en dagelijks leven. Het gaat verder dan rood,

Wat is WordPress -editor

Wat is WordPress -editor

De WordPress -editor is de centrale hub voor het maken van inhoud en ontwerp binnen een WordPress

Wat is primair menu in WordPress

Wat is het primaire menu in WordPress?

Als u net bent begonnen met het bouwen van een WordPress -site, bent u waarschijnlijk het term 'primaire menu' tegengekomen.

Ga aan de slag met Seahawk

Meld u aan in onze app om onze prijzen te bekijken en kortingen te krijgen.