Ahrefs bot의 비상식적 사이트 크롤링 접근 차단 - robots.txt 수정 또는 .htaccess 파일 수정을 통해 차단 가능해 | |||
| |||
우크라이나와 싱가폴에 연구소를 둔 Ahrefs.com은 검색엔진 최적화(SEO) 업체로 표준을 지키지 않는 것으로 유명했습니다. 참고로 SEO란 Search Engine Optimization을 줄임말로 검색엔진이 검색을 잘 할수 있도록 도와주는 솔루션입니다. 통상 인터넷 기반의 웹사이트는 robots.txt에 접근 정책을 정의해 둡니다. 그런데 ahrefs.com은 이를 무시하고 크롤링을 해 버리는 경우가 많았습니다.
예전에도 한번 그런적이 있었는데, 최근 이 bot이 다시 제 서버를 찾아와 괴롭히기 시작했습니다.
이 bot으로 인하여 발생하는 서버의 장애는 socket connection이 모자라기 시작한다는 것입니다. 통상은 서버가 아무리 바빠도 telnet이나 ssh 접속은 여유가 있기 마련인데, 이 bot은 telnet이나 ssh접속마저 할 수 없을 정도로 엄청나게 크롤링(crawling)을 해 버립니다.
이 bot의 접근 유무는 access.log 파일을 채크하면 간단히 확인할 수 있습니다. 검색어로 AhrefsBot을 찾으시면 됩니다.
이것이 가끔 DDoS(Distributed Denial of Service) Attack의 형태로 특정 시스템을 공격하고는 하는데요, 전에는 이 크롤러(Cralwer)가 정보를 다 긁어갈때까지 무방비 상태로 있고는 했는데, 이번에는 좀더 공격적으로 블럭킹을 하는 방법으로 접근을 해 보았습니다.
아파치에 설정을 하기 보다는 .htaccess파일 상단에 다음의 정의를 추가함으로써 이 지긋지긋한 DDoS Attack으로부터 탈출 할 수 있었습니다. 나중에 이 bot이 IP Address를 변경하면 다시 .htaccess 파일을 수정해주어야겠지만, 당분간은 안심입니다.
참고로 Ahrefs.com에서는 아래와 같이 그들 bot 차단하거나 제한하는 방법을 제시하였습니다. 제 경우 아래와 같이 해 보았으나, 개선이 되지 않아 위와 같은 극단적인 방법을 동원했습니다. 그러나 다른 bot 차단에 최소한의 도움이 되지 않을까 싶어 올려 봅니다.
Tags: AhrefsBot Crawling DDoS DDoS Attack DoS Attack SEO Virtual Private Server access.log robots.txt socket 검색엔진 최적화 낙서연구소 메타블로그 스텐포드 대학교 졸업생 | |||
| |||
| |||
로그인을 하시면 댓글을 등록 할 수 있습니다. |
SIMILAR POSTS 구라파닷컴 서버 이전 - 뉴욕에서 한국으로 |