데이터 수집 시 고려해야 할 점: 크롤러의 상도덕

데이터 수집 시 고려해야 할 점: 크롤러의 상도덕

데이터 데이터 분석의 핵심 기능 중 하나입니다. 그러나 데이터를 수집할 때는 몇 가지 중요한 점을 고려해야 합니다. 오늘은 그 중 하나인 크롤러의 상도덕에 대해 이야기해보려 합니다.

크롤러의 상도덕이란?

크롤러는 웹 페이지를 자동으로 수집하는 프로그램입니다. 그러나 이 크롤러가 웹 서버에 과도한 요청을 보내면, 서버에 장애가 발생할 수 있습니다. 이를 방지하기 위해, 크롤러는 '상도덕'을 지켜야 합니다. 즉, 도메인당 동시 요청 수, 요청 사이의 쉬는 시간, 서버의 응답 속도에 맞춰 요청 속도를 조절하고, robots.txt를 준수하며, 수집 거부를 위한 연락창구를 제공해야 합니다.

알리바바의 크롤러 문제

기미나인 웹서버는 시간당 약 1만4000개의 요청을 받습니다. 이 중 대부분은 검색엔진의 크롤러가 수집하러 오는 요청입니다. 그런데 이 중 절반 가량은 알리바바의 크롤러로부터의 요청입니다.

문제는 알리바바의 크롤러가 상도덕을 지키지 않는다는 것입니다. 알리바바의 크롤러는 동시에 4개 정도의 요청을 쉼 없이 날리며, robots.txt를 준수하지 않습니다. 또한, 크롤러의 이름을 표시하지 않아, IP 주소를 통해 알리바바의 크롤러임을 추측할 수밖에 없습니다.

마무리

알리바바의 크롤러로 인해 기미나인의 서버 응답 속도가 두 배로 늘어나는 문제가 발생했습니다. 이를 해결하기 위해, 알리바바의 요청을 차단하고 서비스 속도를 정상화했습니다.

데이터 수집은 중요하지만, 그 과정에서 다른 서비스에 피해를 주지 않도록 주의해야 합니다. 크롤러를 사용할 때는 상도덕을 지키는 것을 잊지 말아야 합니다.

한줄평을 쓰려면 로그인하세요.