Robots.txt ist eine Textdatei, die Webadministratoren verwenden, um Web-Robots (hauptsächlich Suchmaschinen-Robots) mitzuteilen, wie sie die Seiten ihrer Website crawlen sollen. Die robots.txt-Datei ist Teil des Robots Exclusion Protocol (REP), einer Reihe von Webstandards, die regeln, wie Roboter das Web erkunden, auf Material zugreifen, es indizieren und es den Menschen bereitstellen. Der REP enthält auch Anweisungen wie Meta-Robots und Anweisungen, wie Suchmaschinen Links auf einer Seite, einem Unterverzeichnis oder auf der gesamten Website interpretieren sollen.
In Wirklichkeit geben robots.txt-Dateien an, ob bestimmte Benutzeragenten (Web-Crawling-Software) bestimmte Website-Bereiche crawlen dürfen oder nicht. Das Verhalten ausgewählter oder aller Benutzeragenten wird in diesen Crawling-Anweisungen als „nicht zulässig“ oder „erlaubt“ bezeichnet.
Was ist der Zweck von robots.txt?
Die Hauptfunktionen von Suchmaschinen sind:
Durchsuchen des Internets nach Material; Kategorisierung dieser Inhalte, damit sie Informationssuchenden bereitgestellt werden.
Suchmaschinen scannen Websites, indem sie Links von einer Website zur nächsten folgen und schließlich Milliarden von Verbindungen und Webseiten durchsuchen. „Spidering“ ist ein Begriff, der diese kriechende Aktivität beschreibt.
Der Suchcrawler sucht nach einer robots.txt-Datei, nachdem er auf einer Website gelandet ist, aber bevor er sie durchsucht. Der Crawler liest die Seite, bevor er sie findet, und fährt mit der nächsten Seite fort. Die in der robots.txt-Datei erhaltenen Informationen steuern das spätere Crawler-Verhalten auf dieser Website, da sie Informationen darüber enthalten, wie die Suchmaschine crawlen soll. Wenn die robots.txt-Datei keine Anweisungen enthält, ein Benutzeraktivitätsagent verboten ist oder die Site keine robots.txt-Datei hat, werden andere Informationen auf der Site gecrawlt.
Verwendungsmöglichkeiten von robots.txt
Der Crawler-Zugriff auf einige Bereiche Ihrer Website wird mithilfe von robots.txt-Dateien gesteuert. Dies kann zwar ziemlich schädlich sein, wenn Sie den Googlebot versehentlich daran hindern, Ihre gesamte Website zu erkunden (!!), aber manchmal kann eine robots.txt-Datei nützlich sein.
Im Folgenden finden Sie einige Beispiele für häufige Anwendungsfälle:
Es verhindert, dass doppeltes Material auf Suchmaschinen-Ergebnisseiten (SERPs) angezeigt wird. Es ist erwähnenswert, dass Meta-Roboter hierfür häufig eine bessere Option sind.
Ganze Bereiche einer Website können privat gemacht werden. Erwägen Sie den Bereitstellungsbereich für Ihr Ingenieurteam.
Sie verhindern, dass interne Suchergebnisseiten auf der Ergebnisseite einer öffentlichen Suchmaschine angezeigt werden.
Adresse(n) der Sitemap definieren
Verhindern, dass einige Dateien auf Ihrer Website von Suchmaschinen indiziert werden (Bilder, PDFs usw.)
Sie definieren eine Crawl-Verzögerung, um eine Überlastung Ihrer Server zu vermeiden, wenn Crawler viele Materialstücke auf einmal laden.
Einige Dinge, die Sie über robots.txt wissen sollten:
Eine robots.txt-Datei muss im obersten Verzeichnis der Website abgelegt werden.
Die Datei muss „robots.txt“ heißen, da die Groß-/Kleinschreibung beachtet wird.
Ihre robots.txt-Datei wird möglicherweise von einigen Benutzeragenten (Robotern) ignoriert. Dies gilt insbesondere für böswilligere Crawler wie Malware-Roboter und E-Mail-Adress-Scraper.
Die Datei /robots.txt ist für die Öffentlichkeit zugänglich. Dies bedeutet, dass jeder sehen kann, welche Websites Sie crawlen möchten und welche nicht. Verwenden Sie sie also nicht, um persönliche Informationen zu verbergen.
Als Best Practice sollte der Speicherort der mit dieser Domain verknüpften Sitemaps am Ende der robots.txt-Datei angegeben werden.
Möchten Sie mehr über Robotertext erfahren? hierzu die Website von Seahawk Media