Webcrawlers, die door zoekmachines worden ingezet en vaak spiders of bots worden genoemd, hebben als taak om content van het internet te downloaden en te indexeren. Een bot zoals deze is ontworpen om de inhoud van (vrijwel) elke website op het internet te leren kennen, zodat relevante informatie kan worden opgevraagd wanneer dat nodig is.
Meestal zijn het de zoekmachines zelf die deze bots beheren en onderhouden. Wanneer een gebruiker via Google of Bing zoekt, levert dit een lijst met websites op (of een andere zoekmachine).
Je kunt een webcrawlerbot zien als een persoon wiens taak het is om alle boeken in een ongeorganiseerde bibliotheek te doorzoeken en een catalogus samen te stellen. Deze catalogus is vervolgens beschikbaar voor iedereen die de bibliotheek bezoekt en kan door hen worden gebruikt om snel en gemakkelijk de informatie te vinden die ze nodig hebben.
Hoe werken webcrawlers?
Het internet krijgt voortdurend nieuwe mogelijkheden en breidt zijn toepassingsgebied uit. Webcrawlerbots beginnen hun werk vanuit een 'seed', oftewel een lijst met URL's die ze al kennen. Deze 'seed' is hun startpunt. Het is immers fysiek onmogelijk om alle websites op het internet te kennen. Ze beginnen met het crawlen van de websites die bereikbaar zijn via de opgegeven URL's. Ze blijven deze webpagina's crawlen totdat ze links naar andere URL's ontdekken; op dat moment voegen ze die webpagina's toe aan de lijst met domeinen die ze vervolgens gaan crawlen.
Het is aannemelijk dat dit proces vrijwel oneindig lang kan duren, aangezien er zoveel websites geïndexeerd kunnen worden voor zoekdoeleinden. Webcrawlers houden ook rekening met andere factoren die de waarschijnlijkheid aangeven dat een pagina relevante informatie bevat. De meeste webcrawlers zijn niet ontworpen om het hele openbare deel van het internet te crawlen. In plaats daarvan bepalen ze welke sites ze als eerste crawlen door verschillende kenmerken zoals deze te overwegen.
Een zoekmachine moet een website hebben geïndexeerd die door veel andere webpagina's wordt aangehaald en een groot aantal bezoekers trekt. Zo'n webpagina bevat namelijk waarschijnlijk kwalitatief hoogwaardige en gezaghebbende content. Dit is vergelijkbaar met hoe een bibliotheek ervoor zorgt dat er voldoende exemplaren beschikbaar zijn van een boek dat vaak door veel lezers wordt uitgeleend.
Onderzoek van eerder bezochte websites
De informatie die op het World Wide Web te vinden is, wordt voortdurend bijgewerkt, verwijderd of naar andere websites verplaatst. Webcrawlers moeten de sites die ze indexeren regelmatig bezoeken om te garanderen dat hun databases de meest actuele versie van het materiaal bevatten.
Binnen de gespecialiseerde algoritmes die door de spiderbots van de verschillende zoekmachines worden gebruikt, worden aan deze factoren verschillende mate van betekenis toegekend. Het uiteindelijke doel van alle webcrawlers is echter hetzelfde: content van websites downloaden en indexeren. De webcrawlers die door verschillende zoekmachines worden gebruikt, zullen zich daarom enigszins verschillend gedragen.
Raadpleeg Seahawkmedia voor meer van dit soort artikelen.