Robots.txt

Robots txt

Robots.txt ist eine Textdatei, mit der Webadministratoren Webrobotern (hauptsächlich Suchmaschinenrobotern) mitteilen, wie sie die Seiten ihrer Website crawlen sollen. Die Datei robots.txt ist Teil des Robots-Exclusion-Protokolls (REP), einer Reihe von Webstandards, die regeln, wie Robots das Web erforschen, auf Material zugreifen, es indizieren und den Menschen zur Verfügung stellen. Das REP enthält auch Richtlinien wie Meta-Robots und Anweisungen, wie Suchmaschinen Links auf einer Seite, einem Unterverzeichnis oder der gesamten Website interpretieren sollen.

In Wirklichkeit legen robots.txt-Dateien fest, ob bestimmte User-Agents (Web-Crawling-Software) bestimmte Website-Bereiche crawlen dürfen oder nicht. Das Verhalten ausgewählter oder aller User-Agents ist in diesen Crawling-Anweisungen "verboten" oder "erlaubt".

Was ist der Zweck von robots.txt?

Die Hauptfunktionen von Suchmaschinen sind:

Durchsuchen des Internets nach Material; Kategorisierung dieser Inhalte, damit sie den Informationssuchenden zur Verfügung gestellt werden.

Suchmaschinen durchsuchen Websites, indem sie den Links von einer Website zur nächsten folgen und schließlich Milliarden von Verbindungen und Webseiten crawlen. "Spidering" ist ein Begriff, der diese Crawling-Aktivität beschreibt.

Der Such-Crawler sucht nach der Landung auf einer Website, aber vor dem Spidern, nach einer robots.txt-Datei. Der Crawler liest sie, bevor er sie findet und zur nächsten Seite weitergeht. Die in der robots.txt-Datei enthaltenen Informationen steuern das weitere Verhalten des Crawlers auf dieser Website, da sie Informationen darüber enthalten, wie die Suchmaschine crawlen soll. Wenn die robots.txt-Datei keine Anweisungen enthält, wenn ein Agent für Benutzeraktivitäten verboten ist oder wenn die Website keine robots.txt-Datei hat, werden andere Informationen auf der Website gecrawlt.

Verwendungen von robots.txt

Der Crawler-Zugang zu einigen Bereichen Ihrer Website wird mit robots.txt-Dateien kontrolliert. Dies kann zwar ziemlich schädlich sein, wenn Sie Googlebot versehentlich daran hindern, Ihre gesamte Website zu erkunden (!!), aber es gibt Zeiten, in denen eine robots.txt-Datei nützlich sein kann.

Im Folgenden sind einige Beispiele für häufige Anwendungsfälle aufgeführt:

Es verhindert, dass doppeltes Material auf den Ergebnisseiten der Suchmaschinen (SERPs) angezeigt wird. Es ist erwähnenswert, dass Meta-Robots hierfür häufig eine bessere Option sind.

Ganze Bereiche einer Website können privat gemacht werden. Denken Sie an den Bereitstellungsbereich für Ihr Entwicklungsteam.

Sie verhindern, dass interne Suchergebnisseiten auf einer öffentlichen Suchergebnisseite erscheinen.

Festlegen der Adresse(n) der Sitemap

Verhindern, dass bestimmte Dateien auf Ihrer Website von Suchmaschinen indiziert werden (Bilder, PDF-Dateien usw.)

Sie legen eine Crawl-Verzögerung fest, damit Ihre Server nicht überlastet werden, wenn Crawler viele Inhalte auf einmal laden.

Einige wichtige Informationen über robots.txt: 

Eine robots.txt-Datei muss im Hauptverzeichnis der Website abgelegt werden.

Die Datei muss "robots.txt" heißen, da die Groß- und Kleinschreibung beachtet werden muss.

Ihre robots.txt-Datei kann von einigen Benutzer-Agenten (Robots) ignoriert werden. Dies gilt vor allem für böswillige Crawler wie Malware-Roboter und E-Mail-Adressen-Scraper.

Die Datei /robots.txt ist für die Öffentlichkeit zugänglich. Das bedeutet, dass jeder sehen kann, welche Websites Sie crawlen wollen und welche nicht. Verwenden Sie sie also nicht, um persönliche Informationen zu verbergen.

Der Speicherort von Sitemaps, die mit dieser Domäne verknüpft sind, sollte am unteren Ende der robots.txt-Datei angegeben werden, um eine optimale Vorgehensweise zu gewährleisten.

Sind Sie daran interessiert, mehr über Robot-Text zu erfahren? Dann besuchen Sie dazu die Website von Seahawk Media.

Related Posts

WordPress ist ein leistungsstarkes Content-Management-System (CMS), mit dem Sie Ihre Website erstellen und verwalten können.

Im WordPress-Ökosystem ist ein Plugin eine Software, die die Funktionalität einer Website erweitert

Ein Parent-Theme ist ein komplettes WordPress-Theme, das so verwendet werden kann, wie es ist oder

Komal Bothra 20. Mai 2023

WordPress-Installation

WordPress ist ein leistungsstarkes Content-Management-System (CMS), mit dem Sie Ihre Website erstellen und verwalten können.

WordPress
Komal Bothra 1. März 2023

Was ist der Plugin-Editor?

Im WordPress-Ökosystem ist ein Plugin eine Software, die die Funktionalität einer Website erweitert

Uncategorized
Komal Bothra 1. März 2023

Übergeordnetes Thema

Ein Parent-Theme ist ein komplettes WordPress-Theme, das so verwendet werden kann, wie es ist oder

Uncategorized

Get started with Seahawk

Sign up in our app to view our pricing and get discounts.