这些训练AI的爬虫近期有些疯狂了,都不遵守robots.txt规则了,服务器被爬的CUP占用一直都是100%,这种不能带来流量的爬虫就应该直接封禁!
但是由于Facebook、Amazon这些爬虫的IP太多了,Fail2ban这种高频IP自动封禁的就失效了,他可能短时间内一个IP就爬一两次,根本封不到它。
这时候我们直接通过UA封禁,❌瓜5网这篇是没用的:https://www.gua5.com/p/1529
✅正确做法是直接在伪静态规则也就是.htaccess文件里直接添加,让爬虫访问直接返回403,不加载PHP和MySQL,降低90%服务器压力;
❌无法httpd.conf封禁整个服务器的恶意爬虫的!

直接在伪静态设置或.htaccess文件最上方添加:
<IfModule mod_rewrite.c>
RewriteEngine On
# 封杀 Semrush
RewriteCond %{HTTP_USER_AGENT} Semrush [NC]
RewriteRule ^ - [F,L]
# 封杀 Facebook / Meta
RewriteCond %{HTTP_USER_AGENT} (meta-webindexer|facebookexternalhit|ExternalFetcher|meta-externalagent) [NC]
RewriteRule ^ - [F,L]
# 封杀 Amazonbot
RewriteCond %{HTTP_USER_AGENT} Amazonbot [NC]
RewriteRule ^ - [F,L]
# 封杀 亚马逊 Amzn-SearchBot
RewriteCond %{HTTP_USER_AGENT} Amzn-SearchBot [NC]
RewriteRule ^ - [F,L]
# 封杀 Ahrefs
RewriteCond %{HTTP_USER_AGENT} Ahrefs [NC]
RewriteRule ^ - [F,L]
# 封杀 Majestic
RewriteCond %{HTTP_USER_AGENT} (Majestic|MJ12bot) [NC]
RewriteRule ^ - [F,L]
# 封杀 Sitechecker / Seoscout
RewriteCond %{HTTP_USER_AGENT} (Sitechecker|Seoscout) [NC]
RewriteRule ^ - [F,L]
# 封杀 华为花瓣
RewriteCond %{HTTP_USER_AGENT} PetalBot [NC]
RewriteRule ^ - [F,L]
</IfModule>
本文来自投稿,不代表首晒立场,如若转载,请注明出处:https://www.shoushai.com/p/1930