시작 |
분류 추가 |
||
78번째 줄: | 78번째 줄: | ||
다만 코어 업데이트를 하면서 <code>.htaccess</code>가 덮어 씌어지면 [[말짱 도루묵]]이므로 업데이트 시 사이트 설정 파일에 직접 삽입하거나, 백업해 두는 것이 좋다. | 다만 코어 업데이트를 하면서 <code>.htaccess</code>가 덮어 씌어지면 [[말짱 도루묵]]이므로 업데이트 시 사이트 설정 파일에 직접 삽입하거나, 백업해 두는 것이 좋다. | ||
<!-- 분류 --> | |||
[[분류:라이믹스/모듈]] |
2024년 11월 8일 (금) 22:13 기준 최신판
라이믹스 모듈 구충제 모듈(ALL-BAN-d'azole) | |||||||||
---|---|---|---|---|---|---|---|---|---|
제작자 | 기진곰 | ||||||||
첫 업로드 일자 | 2024년 10월 27일 | ||||||||
최신 버전 | 1.0.0 (2024년 10월 27일) | ||||||||
라이센스 | GPL v2 | ||||||||
유·무료 여부 | 무료 | ||||||||
소개 페이지 | XETOWN 공개 자료실 | ||||||||
깃허브 저장소 | |||||||||
|
개요[편집 / 원본 편집]
라이믹스 기반 사이트에서 웹봇을 차단시켜주는 모듈. 알벤다졸의 발음과 유사하게 지었다.
작동 원리[편집 / 원본 편집]
사이트 접속 시, 유저 에이전트와 IP 주소를 확인 후, 차단 봇 / IP 주소 목록에 있는 경우 403 Forbidden을 반환시킨다.
설치 방법[편집 / 원본 편집]
라이믹스 설치 폴더 언 modules
폴더에 rhymix-allbandazole 저장소 파일을
allbandazole
폴더 안에 넣고, 라이믹스 관리자 페이지에서 설정 완료 버튼을 누른다.
XE나 라이믹스 2.1.x 미만은 작동하지 않는다.
기본 차단 목록[편집 / 원본 편집]
기본 차단 목록 등재 기준(불량 로봇 간주 기준)은
- 검색 노출을 통한 방문자 유입, SNS 공유, 광고 수익 등 명백한 혜택을 주지 않으면서
- 운영자의 동의 없이 국내 홈페이지를 대량으로 크롤링하여
- 서버 부하 증가, 해외 트래픽 요금 등의 피해를 입힌 이력이 있는 user-agent 또는 IP 대역입니다.
❗ 모든 목록은 Blacklist.php 코드를 확인하세요!
추가적으로 사용자가 원하는 봇 유저 에이전트나 IP 대역을 추가할 수 있다.
봇 목록[편집 / 원본 편집]
❗범례(접기/펼치기)
- Adsbot (Craw) - 광고 네트워크와 연관된 봇으로, 주로 광고 배너 분석을 위해 웹사이트를 크롤링하는 봇임.
- AhrefsBot (Craw) - SEO 도구인 Ahrefs의 크롤러로, 웹사이트의 SEO 메트릭을 수집하기 위해 웹페이지를 탐색함.
- Applebot (Craw) - 애플의 공식 웹 크롤러로, Siri와 Spotlight 검색 결과를 위해 웹 콘텐츠를 인덱싱하는 역할을 함.
- BaiduSpider (Craw) - 중국 검색 엔진 Baidu의 크롤러로, 중국 사용자를 대상으로 웹페이지를 인덱싱함.
- BLEXBot (Craw) - 여러 웹사이트의 콘텐츠를 분석하기 위해 크롤링을 수행하는 SEO 및 웹 마케팅 도구의 봇임.
- ChatGPT-User (AI) - OpenAI의 ChatGPT 모델과 연관된 봇으로, 웹에서 정보를 수집하여 콘텐츠 생성이나 학습에 활용할 수 있음.
- Claude-Web (AI) - Anthropic의 AI 모델 Claude의 웹 크롤러로, 대화형 인공지능 훈련용 데이터를 수집할 수 있음.
- cohere-ai (AI) - Cohere의 AI 모델과 연관된 봇으로, 웹상의 텍스트 데이터를 수집하여 언어 모델 훈련에 사용될 수 있음.
- DotBot (Craw) - Dotdash Meredith에서 사용하는 크롤러로, 콘텐츠를 분석하기 위해 여러 웹사이트를 탐색함.
- FacebookBot (SNS) - 페이스북의 콘텐츠 분석 및 인덱싱 봇으로, 웹상의 콘텐츠가 페이스북의 뉴스 피드에 나타나도록 크롤링함.
- GPTBot (AI) - OpenAI에서 제공하는 크롤러로, ChatGPT와 같은 AI 모델의 학습을 위해 웹 콘텐츠를 수집하는 봇임.
- GrapeshotCrawler (Craw) - Grapeshot에서 운영하는 크롤러로, 타겟 광고를 위한 웹 콘텐츠 분석에 사용됨.
- heritrix (Craw) - 대규모 웹 데이터 수집을 위해 주로 사용되는 오픈 소스 크롤러로, 웹 아카이브 프로젝트 등에서 활용됨.
- ICC-Crawler (Craw) - 웹상의 위협 요소 탐지를 위한 크롤러로, 사이버 보안 연구에 사용될 수 있음.
- Meta-ExternalAgent (SNS) - 메타(페이스북, 인스타그램)와 연관된 외부 콘텐츠 수집 크롤러임.
- MJ12bot (Craw) - Majestic SEO 도구의 크롤러로, 백링크 및 사이트 평가를 위해 웹사이트 데이터를 수집함.
- OAI-SearchBot (AI) - OpenAI의 검색용 봇으로, AI 모델 성능 개선을 위해 데이터를 수집함.
- PerplexityBot (AI) - Perplexity AI와 관련된 크롤러로, AI 모델 훈련에 사용할 웹 데이터를 수집함.
- PhantomJS (Craw) - 주로 웹 스크래핑과 테스트 자동화를 위해 사용되는 헤드리스 브라우저의 유저 에이전트임.
- Scrapy (Craw) - Python 기반의 웹 크롤링 프레임워크로, 스크래핑 목적으로 활용될 수 있는 봇임.
IP 대역[편집 / 원본 편집]
222.239.104.0/24
- VPN 업체로 추정된다.
서버단 차단[편집 / 원본 편집]
웹 서버에서 .htaccess 등을 사용하여 차단하는 것을 권장한다.
- 서버 리소스 절약:
.htaccess
에서의 차단은 요청이 PHP 레벨에 도달하기 전에 처리된다. 웹 서버가 요청을 미리 필터링하기 때문에 PHP나 라이믹스의 모듈까지 실행되지 않으며, 이로 인해 서버 리소스와 속도 면에서 더 효율적이다. - 응답 시간 단축:
.htaccess
에서 바로 차단하면 XE가 개입하지 않아 응답 시간이 빨라진다. 라이믹스 모듈은 PHP 코드와 데이터베이스 호출이 포함될 수 있어 응답이 느려질 가능성이 있지만,.htaccess
는 훨씬 빠른 속도로 요청을 걸러낸다. - 단순성 및 유지 관리 용이성:
.htaccess
설정은 간단한 규칙으로 이루어져 있어 유지 관리가 쉽다. 모듈을 통해 차단할 경우, 코어 업데이트에 영향을 받을 수 있고, 모듈 자체가 비정상적으로 동작할 가능성도 있으므로 안정성 측면에서도.htaccess
방식이 더 낫다.
다만 코어 업데이트를 하면서 .htaccess
가 덮어 씌어지면 말짱 도루묵이므로 업데이트 시 사이트 설정 파일에 직접 삽입하거나, 백업해 두는 것이 좋다.