라이믹스/모듈/구충제

라이믹스 모듈
구충제 모듈(ALL-BAN-d'azole)
제작자 기진곰
첫 업로드 일자 2024년 10월 27일
최신 버전 1.0.0 (2024년 10월 27일)
라이센스 GPL v2
유·무료 여부 무료
소개 페이지 XETOWN 공개 자료실
깃허브 저장소

Green tickrhymix-allbandazole

개요[편집 / 원본 편집]

라이믹스 기반 사이트에서 웹봇을 차단시켜주는 모듈. 알벤다졸의 발음과 유사하게 지었다.

작동 원리[편집 / 원본 편집]

사이트 접속 시, 유저 에이전트와 IP 주소를 확인 후, 차단 봇 / IP 주소 목록에 있는 경우 403 Forbidden을 반환시킨다.

설치 방법[편집 / 원본 편집]

라이믹스 설치 폴더 언 modules 폴더에 Green tickrhymix-allbandazole 저장소 파일을 allbandazole 폴더 안에 넣고, 라이믹스 관리자 페이지에서 설정 완료 버튼을 누른다.

XE나 라이믹스 2.1.x 미만은 작동하지 않는다.

기본 차단 목록[편집 / 원본 편집]

기본 차단 목록 등재 기준(불량 로봇 간주 기준)은

  1. 검색 노출을 통한 방문자 유입, SNS 공유, 광고 수익 등 명백한 혜택을 주지 않으면서
  2. 운영자의 동의 없이 국내 홈페이지를 대량으로 크롤링하여
  3. 서버 부하 증가, 해외 트래픽 요금 등의 피해를 입힌 이력이 있는 user-agent 또는 IP 대역입니다.

❗ 모든 목록은 Blacklist.php 코드를 확인하세요!

추가적으로 사용자가 원하는 봇 유저 에이전트나 IP 대역을 추가할 수 있다.

봇 목록[편집 / 원본 편집]


  • Adsbot (Craw) - 광고 네트워크와 연관된 봇으로, 주로 광고 배너 분석을 위해 웹사이트를 크롤링하는 봇임.
  • AhrefsBot (Craw) - SEO 도구인 Ahrefs의 크롤러로, 웹사이트의 SEO 메트릭을 수집하기 위해 웹페이지를 탐색함.
  • Applebot (Craw) - 애플의 공식 웹 크롤러로, Siri와 Spotlight 검색 결과를 위해 웹 콘텐츠를 인덱싱하는 역할을 함.
  • BaiduSpider (Craw) - 중국 검색 엔진 Baidu의 크롤러로, 중국 사용자를 대상으로 웹페이지를 인덱싱함.
  • BLEXBot (Craw) - 여러 웹사이트의 콘텐츠를 분석하기 위해 크롤링을 수행하는 SEO 및 웹 마케팅 도구의 봇임.
  • ChatGPT-User (AI) - OpenAI의 ChatGPT 모델과 연관된 봇으로, 웹에서 정보를 수집하여 콘텐츠 생성이나 학습에 활용할 수 있음.
  • Claude-Web (AI) - Anthropic의 AI 모델 Claude의 웹 크롤러로, 대화형 인공지능 훈련용 데이터를 수집할 수 있음.
  • cohere-ai (AI) - Cohere의 AI 모델과 연관된 봇으로, 웹상의 텍스트 데이터를 수집하여 언어 모델 훈련에 사용될 수 있음.
  • DotBot (Craw) - Dotdash Meredith에서 사용하는 크롤러로, 콘텐츠를 분석하기 위해 여러 웹사이트를 탐색함.
  • FacebookBot (SNS) - 페이스북의 콘텐츠 분석 및 인덱싱 봇으로, 웹상의 콘텐츠가 페이스북의 뉴스 피드에 나타나도록 크롤링함.
  • GPTBot (AI) - OpenAI에서 제공하는 크롤러로, ChatGPT와 같은 AI 모델의 학습을 위해 웹 콘텐츠를 수집하는 봇임.
  • GrapeshotCrawler (Craw) - Grapeshot에서 운영하는 크롤러로, 타겟 광고를 위한 웹 콘텐츠 분석에 사용됨.
  • heritrix (Craw) - 대규모 웹 데이터 수집을 위해 주로 사용되는 오픈 소스 크롤러로, 웹 아카이브 프로젝트 등에서 활용됨.
  • ICC-Crawler (Craw) - 웹상의 위협 요소 탐지를 위한 크롤러로, 사이버 보안 연구에 사용될 수 있음.
  • Meta-ExternalAgent (SNS) - 메타(페이스북, 인스타그램)와 연관된 외부 콘텐츠 수집 크롤러임.
  • MJ12bot (Craw) - Majestic SEO 도구의 크롤러로, 백링크 및 사이트 평가를 위해 웹사이트 데이터를 수집함.
  • OAI-SearchBot (AI) - OpenAI의 검색용 봇으로, AI 모델 성능 개선을 위해 데이터를 수집함.
  • PerplexityBot (AI) - Perplexity AI와 관련된 크롤러로, AI 모델 훈련에 사용할 웹 데이터를 수집함.
  • PhantomJS (Craw) - 주로 웹 스크래핑과 테스트 자동화를 위해 사용되는 헤드리스 브라우저의 유저 에이전트임.
  • Scrapy (Craw) - Python 기반의 웹 크롤링 프레임워크로, 스크래핑 목적으로 활용될 수 있는 봇임.

IP 대역[편집 / 원본 편집]

서버단 차단[편집 / 원본 편집]

웹 서버에서 .htaccess 등을 사용하여 차단하는 것을 권장한다.

  1. 서버 리소스 절약: .htaccess에서의 차단은 요청이 PHP 레벨에 도달하기 전에 처리된다. 웹 서버가 요청을 미리 필터링하기 때문에 PHP나 라이믹스의 모듈까지 실행되지 않으며, 이로 인해 서버 리소스와 속도 면에서 더 효율적이다.
  2. 응답 시간 단축: .htaccess에서 바로 차단하면 XE가 개입하지 않아 응답 시간이 빨라진다. 라이믹스 모듈은 PHP 코드와 데이터베이스 호출이 포함될 수 있어 응답이 느려질 가능성이 있지만, .htaccess는 훨씬 빠른 속도로 요청을 걸러낸다.
  3. 단순성 및 유지 관리 용이성: .htaccess 설정은 간단한 규칙으로 이루어져 있어 유지 관리가 쉽다. 모듈을 통해 차단할 경우, 코어 업데이트에 영향을 받을 수 있고, 모듈 자체가 비정상적으로 동작할 가능성도 있으므로 안정성 측면에서도 .htaccess 방식이 더 낫다.

다만 코어 업데이트를 하면서 .htaccess가 덮어 씌어지면 말짱 도루묵이므로 업데이트 시 사이트 설정 파일에 직접 삽입하거나, 백업해 두는 것이 좋다.