검색 엔진에서 사용되는 웹 크롤러는 흔히 스파이더 또는 봇이라고도 불리며, 인터넷상의 콘텐츠를 다운로드하고 색인을 생성하는 역할을 합니다. 이러한 봇은 인터넷상의 거의 모든 웹사이트 콘텐츠를 숙지하여 필요할 때마다 관련 정보를 검색할 수 있도록 설계되었습니다.
대부분의 경우 검색 엔진이 이러한 봇을 운영하고 유지 관리하는 책임을 맡고 있습니다. 사용자가 Google이나 Bing을 사용하여 검색하면 (또는 다른 검색 엔진을 사용하면) 검색 결과로 웹사이트 목록이 표시됩니다.
웹 크롤러 봇을 이해하는 한 가지 방법은 정리되지 않은 도서관의 모든 책을 검색하여 카드 목록을 만드는 일을 하는 사람과 같다고 생각하는 것입니다. 이렇게 만들어진 카드 목록은 도서관 방문객 누구나 이용할 수 있으며, 필요한 정보를 빠르고 쉽게 찾을 수 있도록 도와줍니다.
웹 크롤러는 어떻게 작동하나요?
인터넷은 끊임없이 새로운 기능을 습득하고 그 작동 영역을 확장하고 있습니다. 웹 크롤러 봇은 시드(seed)라고 하는, 이미 알고 있는 URL 목록에서 작업을 시작합니다. 이 시드는 크롤러 봇이 작업을 시작할 출발점이 됩니다. 인터넷에 존재하는 모든 웹사이트의 수를 파악하는 것은 물리적으로 불가능하기 때문입니다. 크롤러 봇은 제공된 URL을 통해 접속할 수 있는 웹사이트부터 크롤링하기 시작합니다. 다른 URL로 연결되는 링크를 발견할 때까지 해당 웹페이지를 계속해서 크롤링하고, 링크를 발견하면 해당 웹페이지를 다음에 크롤링할 도메인 목록에 추가합니다.
검색 목적으로 색인화되는 웹사이트가 매우 많기 때문에 이 과정은 거의 무한정 지속될 가능성이 있습니다. 웹 크롤러는 페이지에 의미 있는 정보가 포함될 가능성을 나타내는 다른 요소들도 고려합니다. 대부분의 웹 크롤러는 인터넷의 모든 공개된 웹사이트를 크롤링하도록 설계되지 않았습니다. 대신, 이러한 여러 특징들을 고려하여 어떤 사이트를 먼저 크롤링할지 결정합니다.
검색 엔진은 다른 웹페이지에서 많이 참조되고 방문 횟수가 많은 사이트를 색인화해야 합니다. 왜냐하면 그러한 웹페이지는 양질의 권위 있는 콘텐츠를 포함할 가능성이 높기 때문입니다. 이는 도서관이 많은 이용자들이 대출하는 책을 충분한 수량으로 확보하는 것과 유사합니다.
이전에 방문했던 웹사이트 조사하기
월드 와이드 웹에서 찾을 수 있는 정보는 끊임없이 업데이트되거나 삭제되거나 다른 웹사이트로 이동됩니다. 웹 크롤러는 데이터베이스에 최신 버전의 자료가 포함되도록 색인을 생성하는 사이트를 자주 방문해야 합니다.
각 검색 엔진의 스파이더 봇이 사용하는 특수 알고리즘 내에서 이러한 요소들은 서로 다른 중요도를 부여받습니다. 그러나 모든 웹 크롤러의 최종 목표는 동일합니다. 바로 웹사이트에서 콘텐츠를 다운로드하고 색인을 생성하는 것입니다. 다만, 각 검색 엔진에서 사용하는 웹 크롤러는 약간씩 다른 방식으로 작동합니다.
를 참조하세요 Seahawkmedia 더 많은 관련 기사를 보시려면