spider – 스파이더
스파이더는 검색엔진의 색인에 들어갈 내용을 만들기 위해, 웹사이트들을 방문하여 웹페이지 및 기타 여러 가지 정보를 읽어오는 프로그램이다.
웹상의 주요 검색 엔진들은 모두 스파이더와 같은 프로그램을 가지고 있으며, 이 프로그램은 때로 “크롤러” 또는 “봇”이라고 불리기도 한다.
스파이더는 일반적으로 각 사이트의 운영자가 신규 또는 갱신되었다고 신고한 사이트들을 방문하도록 프로그램된다.
그러나, 전체 사이트를 방문하거나 또는 특정 페이지만을 선택적으로 색인하는 것도 가능하다.
이 프로그램이 스파이더라고 불리는 이유는, 스파이더가 대개 많은 수의 사이트를 동시에 병렬로 방문할 수 있기 때문에, ‘웹'(거미집이라는 의미의 웹)의 큰 지역을 커버할 수 있는 ‘스파이더'(거미라는 의미의 스파이더)의 여러 다리들을 비유한 말이다.
스파이더는 사이트의 웹페이지들을 여러 가지 방식으로 탐색할 수 있는데, 그중 한 방법은 각 페이지에 정의되어 있는 모든 하이퍼텍스트 링크를 따라 모든 페이지를 읽을 때까지 탐색하는 것이다.
알타비스타 검색엔진과 웹사이트에서는 ‘스쿠터’라는 이름의 스파이더를 쓴다.
스쿠터는 SRE 내에 명시된 웹 스파이더 규칙을 잘 지킨다.
스쿠터는 각 서버에게 색인에서 제외되어야할 파일이 어떤 것인지를 질의하며, 또 방화벽 내까지는 진입하지 않는다.
계속적인 서버의 업무 처리 중에는 스스로 기다리는 특별한 알고리즘을 사용함으로써 다른 사용자들의 응답시간에 악영향을 주지 않도록 배려한다.