Robots.txt

Robots txt

Robots.txt ist eine Textdatei, mit der Webadministratoren Webrobotern (hauptsächlich Suchmaschinenrobotern) mitteilen, wie sie die Seiten ihrer Website crawlen sollen. Die Datei robots.txt ist Teil des Robots-Exclusion-Protokolls (REP), einer Reihe von Webstandards, die regeln, wie Robots das Web erforschen, auf Material zugreifen, es indizieren und den Menschen zur Verfügung stellen. Das REP enthält auch Richtlinien wie Meta-Robots und Anweisungen, wie Suchmaschinen Links auf einer Seite, einem Unterverzeichnis oder der gesamten Website interpretieren sollen.

In Wirklichkeit legen robots.txt-Dateien fest, ob bestimmte User-Agents (Web-Crawling-Software) bestimmte Website-Bereiche crawlen dürfen oder nicht. Das Verhalten ausgewählter oder aller User-Agents ist in diesen Crawling-Anweisungen "verboten" oder "erlaubt".

Was ist der Zweck von robots.txt?

Die Hauptfunktionen von Suchmaschinen sind:

Durchsuchen des Internets nach Material; Kategorisierung dieser Inhalte, damit sie den Informationssuchenden zur Verfügung gestellt werden.

Suchmaschinen durchsuchen Websites, indem sie den Links von einer Website zur nächsten folgen und schließlich Milliarden von Verbindungen und Webseiten crawlen. "Spidering" ist ein Begriff, der diese Crawling-Aktivität beschreibt.

Der Such-Crawler sucht nach der Landung auf einer Website, aber vor dem Spidern, nach einer robots.txt-Datei. Der Crawler liest sie, bevor er sie findet und zur nächsten Seite weitergeht. Die in der robots.txt-Datei enthaltenen Informationen steuern das weitere Verhalten des Crawlers auf dieser Website, da sie Informationen darüber enthalten, wie die Suchmaschine crawlen soll. Wenn die robots.txt-Datei keine Anweisungen enthält, wenn ein Agent für Benutzeraktivitäten verboten ist oder wenn die Website keine robots.txt-Datei hat, werden andere Informationen auf der Website gecrawlt.

Verwendungen von robots.txt

Der Crawler-Zugang zu einigen Bereichen Ihrer Website wird mit robots.txt-Dateien kontrolliert. Dies kann zwar ziemlich schädlich sein, wenn Sie Googlebot versehentlich daran hindern, Ihre gesamte Website zu erkunden (!!), aber es gibt Zeiten, in denen eine robots.txt-Datei nützlich sein kann.

Im Folgenden sind einige Beispiele für häufige Anwendungsfälle aufgeführt:

Es verhindert, dass doppeltes Material auf den Ergebnisseiten der Suchmaschinen (SERPs) angezeigt wird. Es ist erwähnenswert, dass Meta-Robots hierfür häufig eine bessere Option sind.

Ganze Bereiche einer Website können privat gemacht werden. Denken Sie an den Bereitstellungsbereich für Ihr Entwicklungsteam.

Sie verhindern, dass interne Suchergebnisseiten auf einer öffentlichen Suchergebnisseite erscheinen.

Festlegen der Adresse(n) der Sitemap

Verhindern, dass bestimmte Dateien auf Ihrer Website von Suchmaschinen indiziert werden (Bilder, PDF-Dateien usw.)

Sie legen eine Crawl-Verzögerung fest, damit Ihre Server nicht überlastet werden, wenn Crawler viele Inhalte auf einmal laden.

Einige wichtige Informationen über robots.txt: 

Eine robots.txt-Datei muss im Hauptverzeichnis der Website abgelegt werden.

Die Datei muss "robots.txt" heißen, da die Groß- und Kleinschreibung beachtet werden muss.

Ihre robots.txt-Datei kann von einigen Benutzer-Agenten (Robots) ignoriert werden. Dies gilt vor allem für böswillige Crawler wie Malware-Roboter und E-Mail-Adressen-Scraper.

Die Datei /robots.txt ist für die Öffentlichkeit zugänglich. Das bedeutet, dass jeder sehen kann, welche Websites Sie crawlen wollen und welche nicht. Verwenden Sie sie also nicht, um persönliche Informationen zu verbergen.

Der Speicherort von Sitemaps, die mit dieser Domäne verknüpft sind, sollte am unteren Ende der robots.txt-Datei angegeben werden, um eine optimale Vorgehensweise zu gewährleisten.

Sind Sie daran interessiert, mehr über Robot-Text zu erfahren? Dann besuchen Sie dazu die Website von Seahawk Media.

Verwandte Beiträge

organische Suche
WordPress-Glossar
Komal Bothra

Was ist organische Suche?

Organische Suche ist der Prozess der Gewinnung von Besuchern auf Ihrer Website durch unbezahlte oder

Komal Bothra 7. Februar 2023

Warum sind FAQs für Ihren WooCommerce-Shop unerlässlich?

Die Seite FAQ (Frequently Asked Questions - häufig gestellte Fragen) ist eine übliche Ergänzung zu Websites. Sie lautet

WordPress
Komal Bothra 7. Februar 2023

Warum ist PageRank der wichtigste Faktor für SEO?

Sie haben wahrscheinlich schon einmal von SEO gehört, aber was sind die wichtigsten Faktoren, um eine

SEO
Komal Bothra 6. Februar 2023

Was ist die Konversionsrate?

Die Konversionsrate ist der prozentuale Anteil der Besucher einer Website, die eine Aktion ausführen, um zu konvertieren.

SEO-Glossar

Erste Schritte mit Seahawk

Melden Sie sich in unserer App an, um unsere Preise einzusehen und Rabatte zu erhalten.