Apache的伪静态.htaccess屏蔽Facebook、Amazon等恶意爬虫的设置方法

这些训练AI的爬虫近期有些疯狂了,都不遵守robots.txt规则了,服务器被爬的CUP占用一直都是100%,这种不能带来流量的爬虫就应该直接封禁!

但是由于Facebook、Amazon这些爬虫的IP太多了,Fail2ban这种高频IP自动封禁的就失效了,他可能短时间内一个IP就爬一两次,根本封不到它。

这时候我们直接通过UA封禁,❌瓜5网这篇是没用的:https://www.gua5.com/p/1529

✅正确做法是直接在伪静态规则也就是.htaccess文件里直接添加,让爬虫访问直接返回403,不加载PHP和MySQL,降低90%服务器压力;

❌无法httpd.conf封禁整个服务器的恶意爬虫的!

2026041620123882

直接在伪静态设置或.htaccess文件最上方添加:

<IfModule mod_rewrite.c>
RewriteEngine On

# 封杀 Semrush
RewriteCond %{HTTP_USER_AGENT} Semrush [NC]
RewriteRule ^ - [F,L]

# 封杀 Facebook / Meta
RewriteCond %{HTTP_USER_AGENT} (meta-webindexer|facebookexternalhit|ExternalFetcher|meta-externalagent) [NC]
RewriteRule ^ - [F,L]

# 封杀 Amazonbot
RewriteCond %{HTTP_USER_AGENT} Amazonbot [NC]
RewriteRule ^ - [F,L]

# 封杀 亚马逊 Amzn-SearchBot
RewriteCond %{HTTP_USER_AGENT} Amzn-SearchBot [NC]
RewriteRule ^ - [F,L]

# 封杀 Ahrefs
RewriteCond %{HTTP_USER_AGENT} Ahrefs [NC]
RewriteRule ^ - [F,L]

# 封杀 Majestic
RewriteCond %{HTTP_USER_AGENT} (Majestic|MJ12bot) [NC]
RewriteRule ^ - [F,L]

# 封杀 Sitechecker / Seoscout
RewriteCond %{HTTP_USER_AGENT} (Sitechecker|Seoscout) [NC]
RewriteRule ^ - [F,L]

# 封杀 华为花瓣
RewriteCond %{HTTP_USER_AGENT} PetalBot [NC]
RewriteRule ^ - [F,L]

</IfModule>

本文来自投稿,不代表首晒立场,如若转载,请注明出处:https://www.shoushai.com/p/1930

喜欢 (1)

发表回复

登录后才能评论

猜你喜欢