Das Herunterladen und Indizieren von Inhalten aus dem gesamten Internet ist die Aufgabe eines Webcrawlers. Diese werden oft auch als Spider oder Bot bezeichnet und von Suchmaschinen. Der Zweck eines Bots besteht darin, sich mit den Inhalten aller Websites im Internet vertraut zu machen, sodass die relevanten Informationen bei Bedarf abgerufen werden können.
Sie werden „Webcrawler“ genannt, weil Crawling der Fachbegriff für das automatische Besuchen einer Website und das Erfassen von Daten mithilfe einer Softwareanwendung ist.
In den meisten Fällen sind Suchmaschinen für den Betrieb dieser Bots verantwortlich. Sie liefern passende Links als Antwort auf Suchanfragen, indem sie einen Suchalgorithmus auf die von Webcrawlern gesammelten Daten anwenden. Dieser Algorithmus generiert die Liste der Webseiten, die bei einer Suche in Google, Bing oder einer anderen Suchmaschine angezeigt werden.
Der Organisator liest den Titel, die Inhaltsangabe und einen Teil des Inhalts jedes Buches in der Bibliothek, um festzustellen, worum es in dem Buch geht, damit die Bücher in die entsprechenden Kategorien eingeordnet und nach Themen sortiert werden können.
Wie erledigt ein Crawler seine Aufgaben?
Ein Webcrawler ist ein Programm, das eine Reihe vordefinierter Phasen nacheinander durchläuft. Daher ist es notwendig, diese Phasen vor Beginn des Crawlings zu definieren. Beispielsweise besucht ein Crawler typischerweise jede Website-URL einzeln, und die Ergebnisse werden nach Abschluss des Crawlings in einem Index gespeichert.
Der jeweilige Algorithmus bestimmt die Darstellung des Index; beispielsweise legt der Google-Algorithmus die Reihenfolge der Suchergebnisse für eine bestimmte Suchanfrage fest. Darüber hinaus bestimmt der Algorithmus auch das Format des Index.
Welche anderen Arten von Raupenfahrzeugen stehen zur Auswahl?
Crawler werden von Entwicklern für verschiedene Zwecke eingesetzt, unter anderem für folgende:
Suchmaschinen
Suchmaschinen wie Google und Bing nutzen Webcrawler, und ihre Verwendung ist weit verbreitet und bekannt. Diese Suchmaschinen könnten ohne die Hilfe von Webcrawlern nicht funktionieren. Denn diese erstellen einen Index, um Nutzern aufbereitete Suchergebnisse zu liefern.
Fokussierter Crawler
„Fokussierte Crawler“ sind das themenspezifische Pendant zur universellen Suchmaschine. Sie beschränken sich auf bestimmte Bereiche des Internets, beispielsweise auf Websites, die sich einem bestimmten Themengebiet widmen oder aktuelle Berichte und Nachrichten bereitstellen. Anschließend erstellen sie einen umfassenden Index dieser Inhalte.
Webanalysen
Webadministratoren nutzen Crawler, um Websites hinsichtlich Daten wie Seitenaufrufen oder Links zu analysieren. Die meisten verwenden spezialisierte Webanalyse-Lösungen.
Preisvergleich
Die Preise vieler verschiedener Produkte, darunter Flugtickets und andere technische Geräte, können von Händler zu Händler variieren. Daher nutzen Websites, die Preise vergleichen, sogenannte Crawler, um ihren Kunden einen Überblick über den aktuellen Markt zu bieten.
Schlussbetrachtung
Ein Webcrawler-Bot kann als eine Art Mensch betrachtet werden, der die Bücher einer ungeordneten Bibliothek durchsucht, um einen Katalog zu erstellen. Dadurch kann jeder Bibliotheksbesucher die gewünschten Informationen schnell und effizient finden.
Viele weitere Glossare, wie zum Beispiel Webcrawler, werden im Seahawk SEO Glossary .