Het downloaden en indexeren van materiaal van het hele internet is de taak van een webcrawler. Deze worden vaak een spider of een bot genoemd en worden gebruikt door zoekmachines . Het doel van een bot is om de inhoud van elke website op het internet te leren kennen, zodat de relevante informatie kan worden opgevraagd wanneer dat nodig is.
Ze worden "webcrawlers" genoemd omdat crawlen de technische term is voor het automatisch bezoeken van een website en het verzamelen van gegevens via een softwareapplicatie.
Meestal zijn het de zoekmachines die deze bots aansturen. Zoekmachines kunnen relevante links weergeven als antwoord op zoekopdrachten van gebruikers door een zoekalgoritme toe te passen op de gegevens die door webcrawlers zijn verzameld. Dit genereert een lijst met websites die verschijnen wanneer een gebruiker een zoekopdracht uitvoert in Google of Bing (of een andere zoekmachine).
De organisator leest de titel, de samenvatting en een deel van de inhoud van elk boek in de bibliotheek om te bepalen waar het boek over gaat, zodat de boeken in de juiste categorieën kunnen worden ingedeeld en op onderwerp kunnen worden gesorteerd.
Hoe voert een crawler zijn taken uit?
Een crawler is een programma dat een reeks vooraf bepaalde fasen in sequentiële volgorde doorloopt. Daarom is het noodzakelijk om deze fasen te definiëren voordat de crawl begint. Een crawler bezoekt bijvoorbeeld doorgaans elke website-URL één voor één, en de resultaten worden opgeslagen in een index zodra de crawler klaar is.
Het specifieke algoritme bepaalt hoe deze index wordt gepresenteerd; het Google-algoritme bepaalt bijvoorbeeld de volgorde waarin resultaten verschijnen als reactie op een specifieke zoekopdracht. Daarnaast bepaalt het algoritme ook het formaat van deze index.
Welke andere soorten rupsvoertuigen zijn er om uit te kiezen?
Crawlers worden door ontwikkelaars voor diverse doeleinden gebruikt, waaronder de volgende:
Zoekmachines
Crawlers worden gebruikt door zoekmachines zoals Google en Bing, en hun gebruik is bijzonder wijdverbreid en bekend. Deze zoekmachines zouden alleen kunnen functioneren met behulp van webcrawlers. Zij zijn het immers die een index creëren om consumenten kant-en-klare zoekresultaten te bieden.
Gerichte crawler
"Gerichte crawlers" zijn de vakspecifieke tegenhanger van de universele zoekmachine (USM). Ze beperken zich tot specifieke delen van het internet, zoals websites die gewijd zijn aan een bepaald onderwerp of sites die actuele berichtgeving en nieuws bieden. Vervolgens stellen ze een uitgebreide index van deze inhoud samen.
Analyses van het web
Webbeheerders gebruiken crawlers ook om websites te onderzoeken op basis van gegevens, zoals websitebezoeken of links. De meeste maken gebruik van gespecialiseerde webanalyseoplossingen.
Prijsvergelijking
De prijzen van veel verschillende producten, waaronder vliegtickets en andere technologische artikelen, kunnen per aanbieder verschillen. Daarom gebruiken websites die prijzen vergelijken crawlers om hun klanten een overzicht te geven van de actuele markt.
Laatste gedachten
Een webcrawlerbot kan worden gezien als een persoon die de boeken in een ongeorganiseerde bibliotheek doorzoekt om een catalogus samen te stellen. Hierdoor kan iedereen die de bibliotheek bezoekt snel en efficiënt de gewenste informatie vinden.
Er zijn nog veel meer verklarende woordenlijsten, zoals die voor webcrawlers, die te vinden zijn in de Seahawk SEO-woordenlijst .