라이믹스 모듈 구충제 모듈(ALL-BAN-d'azole) | |||||||||
---|---|---|---|---|---|---|---|---|---|
제작자 | 기진곰 | ||||||||
첫 업로드 일자 | 2024년 10월 27일 | ||||||||
최신 버전 | 1.0.0 (2024년 10월 27일) | ||||||||
라이센스 | GPL v2 | ||||||||
유·무료 여부 | 무료 | ||||||||
소개 페이지 | XETOWN 공개 자료실 | ||||||||
깃허브 저장소 | |||||||||
|
개요
라이믹스 기반 사이트에서 웹봇을 차단시켜주는 모듈. 알벤다졸의 발음과 유사하게 지었다.
작동 원리
사이트 접속 시, 유저 에이전트와 IP 주소를 확인 후, 차단 봇 / IP 주소 목록에 있는 경우 403 Forbidden을 반환시킨다.
설치 방법
라이믹스 설치 폴더 언 modules
폴더에 rhymix-allbandazole 저장소 파일을
allbandazole
폴더 안에 넣고, 라이믹스 관리자 페이지에서 설정 완료 버튼을 누른다.
XE나 라이믹스 2.1.x 미만은 작동하지 않는다.
기본 차단 목록
기본 차단 목록 등재 기준(불량 로봇 간주 기준)은
- 검색 노출을 통한 방문자 유입, SNS 공유, 광고 수익 등 명백한 혜택을 주지 않으면서
- 운영자의 동의 없이 국내 홈페이지를 대량으로 크롤링하여
- 서버 부하 증가, 해외 트래픽 요금 등의 피해를 입힌 이력이 있는 user-agent 또는 IP 대역입니다.
❗ 모든 목록은 Blacklist.php 코드를 확인하세요!
추가적으로 사용자가 원하는 봇 유저 에이전트나 IP 대역을 추가할 수 있다.
봇 목록
❗범례(접기/펼치기)
- Adsbot (Craw) - 광고 네트워크와 연관된 봇으로, 주로 광고 배너 분석을 위해 웹사이트를 크롤링하는 봇임.
- AhrefsBot (Craw) - SEO 도구인 Ahrefs의 크롤러로, 웹사이트의 SEO 메트릭을 수집하기 위해 웹페이지를 탐색함.
- Applebot (Craw) - 애플의 공식 웹 크롤러로, Siri와 Spotlight 검색 결과를 위해 웹 콘텐츠를 인덱싱하는 역할을 함.
- BaiduSpider (Craw) - 중국 검색 엔진 Baidu의 크롤러로, 중국 사용자를 대상으로 웹페이지를 인덱싱함.
- BLEXBot (Craw) - 여러 웹사이트의 콘텐츠를 분석하기 위해 크롤링을 수행하는 SEO 및 웹 마케팅 도구의 봇임.
- ChatGPT-User (AI) - OpenAI의 ChatGPT 모델과 연관된 봇으로, 웹에서 정보를 수집하여 콘텐츠 생성이나 학습에 활용할 수 있음.
- Claude-Web (AI) - Anthropic의 AI 모델 Claude의 웹 크롤러로, 대화형 인공지능 훈련용 데이터를 수집할 수 있음.
- cohere-ai (AI) - Cohere의 AI 모델과 연관된 봇으로, 웹상의 텍스트 데이터를 수집하여 언어 모델 훈련에 사용될 수 있음.
- DotBot (Craw) - Dotdash Meredith에서 사용하는 크롤러로, 콘텐츠를 분석하기 위해 여러 웹사이트를 탐색함.
- FacebookBot (SNS) - 페이스북의 콘텐츠 분석 및 인덱싱 봇으로, 웹상의 콘텐츠가 페이스북의 뉴스 피드에 나타나도록 크롤링함.
- GPTBot (AI) - OpenAI에서 제공하는 크롤러로, ChatGPT와 같은 AI 모델의 학습을 위해 웹 콘텐츠를 수집하는 봇임.
- GrapeshotCrawler (Craw) - Grapeshot에서 운영하는 크롤러로, 타겟 광고를 위한 웹 콘텐츠 분석에 사용됨.
- heritrix (Craw) - 대규모 웹 데이터 수집을 위해 주로 사용되는 오픈 소스 크롤러로, 웹 아카이브 프로젝트 등에서 활용됨.
- ICC-Crawler (Craw) - 웹상의 위협 요소 탐지를 위한 크롤러로, 사이버 보안 연구에 사용될 수 있음.
- Meta-ExternalAgent (SNS) - 메타(페이스북, 인스타그램)와 연관된 외부 콘텐츠 수집 크롤러임.
- MJ12bot (Craw) - Majestic SEO 도구의 크롤러로, 백링크 및 사이트 평가를 위해 웹사이트 데이터를 수집함.
- OAI-SearchBot (AI) - OpenAI의 검색용 봇으로, AI 모델 성능 개선을 위해 데이터를 수집함.
- PerplexityBot (AI) - Perplexity AI와 관련된 크롤러로, AI 모델 훈련에 사용할 웹 데이터를 수집함.
- PhantomJS (Craw) - 주로 웹 스크래핑과 테스트 자동화를 위해 사용되는 헤드리스 브라우저의 유저 에이전트임.
- Scrapy (Craw) - Python 기반의 웹 크롤링 프레임워크로, 스크래핑 목적으로 활용될 수 있는 봇임.
IP 대역
222.239.104.0/24
- VPN 업체로 추정된다.
서버단 차단
웹 서버에서 .htaccess 등을 사용하여 차단하는 것을 권장한다.
- 서버 리소스 절약:
.htaccess
에서의 차단은 요청이 PHP 레벨에 도달하기 전에 처리된다. 웹 서버가 요청을 미리 필터링하기 때문에 PHP나 라이믹스의 모듈까지 실행되지 않으며, 이로 인해 서버 리소스와 속도 면에서 더 효율적이다. - 응답 시간 단축:
.htaccess
에서 바로 차단하면 XE가 개입하지 않아 응답 시간이 빨라진다. 라이믹스 모듈은 PHP 코드와 데이터베이스 호출이 포함될 수 있어 응답이 느려질 가능성이 있지만,.htaccess
는 훨씬 빠른 속도로 요청을 걸러낸다. - 단순성 및 유지 관리 용이성:
.htaccess
설정은 간단한 규칙으로 이루어져 있어 유지 관리가 쉽다. 모듈을 통해 차단할 경우, 코어 업데이트에 영향을 받을 수 있고, 모듈 자체가 비정상적으로 동작할 가능성도 있으므로 안정성 측면에서도.htaccess
방식이 더 낫다.
다만 코어 업데이트를 하면서 .htaccess
가 덮어 씌어지면 말짱 도루묵이므로 업데이트 시 사이트 설정 파일에 직접 삽입하거나, 백업해 두는 것이 좋다.