Semalt는 봇, 거미 및 크롤러를 다루는 방법에 대한 팁을 제공합니다

검색 엔진 친화적 인 URL을 만드는 것 외에도 .htaccess 파일을 사용하면 웹 마스터가 특정 봇이 웹 사이트에 액세스하는 것을 차단할 수 있습니다. 이러한 로봇을 차단하는 한 가지 방법은 robots.txt 파일을 사용하는 것입니다. 그러나 Semalt 고객 성공 관리자 인 Ross Barber는이 요청을 무시하는 크롤러를 보았다고 말합니다. 가장 좋은 방법 중 하나는 .htaccess 파일을 사용하여 콘텐츠 색인 생성을 중지하는 것입니다.
이 봇은 무엇입니까?
검색 엔진이 색인 작성을 위해 인터넷에서 새 컨텐츠를 삭제하기 위해 사용하는 소프트웨어 유형입니다.

다음과 같은 작업을 수행합니다.
- 링크 한 웹 페이지 방문
- HTML 코드에서 오류 확인
- 그들은 당신이 연결하는 웹 페이지를 저장하고 어떤 웹 페이지가 귀하의 콘텐츠에 연결되는지 확인합니다
- 그들은 당신의 콘텐츠를 색인
그러나 일부 봇은 악의적이며 원치 않는 메시지 나 스팸을 보내는 데 주로 사용되는 전자 메일 주소와 양식을 사이트에서 검색합니다. 다른 사람들은 코드에서 보안 허점을 찾습니다.
웹 크롤러를 차단하려면 무엇이 필요합니까?
.htaccess 파일을 사용하기 전에 다음 사항을 확인해야합니다.
1. 사이트가 Apache 서버에서 실행 중이어야합니다. 요즘에는 웹 호스팅 회사의 절반 정도가 자신의 업무에 있어도 필요한 파일에 액세스 할 수 있습니다.
2. 웹 사이트를 방문한 봇을 찾을 수 있도록 웹 사이트의 원시 서버 로그에 액세스 할 수 있어야합니다.
모든 유해한 봇을 차단하지 않으면 도움이 될 것으로 생각되는 봇을 모두 차단할 수있는 방법이 없습니다. 매일 새로운 봇이 나오고 오래된 봇이 수정됩니다. 가장 효율적인 방법은 코드를 보호하고 봇이 스팸 메일을 보내는 것을 어렵게 만드는 것입니다.
봇 식별
봇은 IP 주소 또는 "사용자 에이전트 문자열"에서 식별 할 수 있으며 HTTP 헤더로 전송됩니다. 예를 들어 Google은 "Googlebot"을 사용합니다.
.htaccess를 사용하여 멀리 유지하려는 봇 이름이 이미있는 경우 302 개의 봇과 함께이 목록이 필요할 수 있습니다.
다른 방법은 서버에서 모든 로그 파일을 다운로드하고 텍스트 편집기를 사용하여 여는 것입니다. 서버에서의 위치는 서버 구성에 따라 달라질 수 있습니다. 찾을 수 없으면 웹 호스트에게 도움을 요청하십시오.

방문한 페이지 또는 방문 시간을 알면 원치 않는 봇을 사용하는 것이 더 쉽습니다. 이 매개 변수를 사용하여 로그 파일을 검색 할 수 있습니다.
일단 어떤 봇을 차단해야하는지 언급했습니다. 그런 다음 .htaccess 파일에 포함시킬 수 있습니다. 봇을 차단하는 것만으로는 충분하지 않습니다. 새로운 IP 또는 이름으로 돌아올 수 있습니다.
그들을 차단하는 방법
.htaccess 파일의 사본을 다운로드하십시오. 필요한 경우 백업하십시오.
방법 1 : IP로 차단
이 코드 스 니펫은 IP 주소 197.0.0.1을 사용하여 봇을 차단합니다.
주문 거부, 허용
197.0.0.1에서 거부
첫 번째 줄은 서버가 지정한 패턴과 일치하는 모든 요청을 차단하고 다른 모든 요청을 허용 함을 의미합니다.
두 번째 줄은 서버에게 403 : 금지 된 페이지를 발행하도록 지시합니다.
방법 2 : 사용자 에이전트에 의한 차단
가장 쉬운 방법은 Apache의 재 작성 엔진을 사용하는 것입니다
RewriteEngine 켜기
RewriteCond % {HTTP_USER_AGENT} BotUserAgent
RewriteRule. -[F, L]
첫 번째 줄은 다시 쓰기 모듈이 활성화되었는지 확인합니다. 두 번째 줄은 규칙이 적용되는 조건입니다. 4 행의 "F"는 서버에게 403을 리턴하도록 지시합니다. "금지됨" "L"은 이것이 마지막 규칙임을 의미합니다.
그런 다음 .htaccess 파일을 서버에 업로드하고 기존 파일을 덮어 씁니다. 시간이 지남에 따라 봇의 IP를 업데이트해야합니다. 오류가 발생하면 백업을 업로드하십시오.