亚马逊爬虫Amazonbot根本无法使用iptables屏蔽IP段，太多了！

程序花园 • 2025年 1月 18日上午1:15 • 后端 • 785 次阅读

关于网友分享的被爬虫攻击，屏蔽IP段的方法，这篇文章里（https://www.shoushai.com/p/983）讲了两个蜘蛛爬虫，一个Facebook确实可以使用iptables来屏蔽IP段，但是Amazonbot爬虫的IP实在是太多了，而且都不是同一个段的IP，根本就禁不完。

所以亚马逊的蜘蛛目前只能靠robots.txt来解决，但是需要24小时才能更新到robots文件，所以只能把其它能禁的禁掉，然后等亚马逊那边更新，抗住压力，祈祷它早点停下来。

另外值得说的一点是，Facebook的蜘蛛也是可以通过robots.txt禁掉的，它官方是说支持这个文件屏蔽，它的蜘蛛名是meta-externalagent，所以建议大家把不需要的爬虫都给禁掉。

WordPress的网站按照网友分享的robots.txt写法去设置：https://www.shoushai.com/p/985

非WordPress网站，可以通用这个写法（WP网站也能用）：

User-agent: GPTBot
Disallow: /
User-agent: meta-externalagent
Disallow: /
User-agent: Amazonbot
Disallow: /
User-agent: MJ12bot
Disallow: /
User-agent: YisouSpider
Disallow: /
User-agent: SemrushBot
Disallow: /
User-agent: SemrushBot-SA
Disallow: /
User-agent: SemrushBot-BA
Disallow: /
User-agent: SemrushBot-SI
Disallow: /
User-agent: SemrushBot-SWA
Disallow: /
User-agent: SemrushBot-CT
Disallow: /
User-agent: SemrushBot-BM
Disallow: /
User-agent: SemrushBot-SEOAB
Disallow: /
user-agent: AhrefsBot
Disallow: /
User-agent: DotBot
Disallow: /
User-agent: Uptimebot
Disallow: /
User-agent: MegaIndex.ru
Disallow: /
User-agent: ZoominfoBot
Disallow: /
User-agent: Mail.Ru
Disallow: /
User-agent: BLEXBot
Disallow: /
User-agent: ExtLinksBot
Disallow: /
User-agent: aiHitBot
Disallow: /
User-agent: Researchscan
Disallow: /
User-agent: DnyzBot
Disallow: /
User-agent: spbot
Disallow: /
User-agent: YandexBot
Disallow: /
User-agent: SemrushBot
Disallow: /
User-agent: SemrushBot-SA
Disallow: /
User-agent: SemrushBot-BA
Disallow: /
User-agent: SemrushBot-SI
Disallow: /
User-agent: SemrushBot-SWA
Disallow: /
User-agent: SemrushBot-CT
Disallow: /
User-agent: SemrushBot-BM
Disallow: /
User-agent: SemrushBot-SEOAB
Disallow: /

其实就是把上面的WP内容去掉，当然，你非要杠，非WP网站用WP的写法也行，反正你也没有那些目录，写上去也不会有问题。

本文来自投稿，不代表首晒立场，如若转载，请注明出处：https://www.shoushai.com/p/990

Amazonbot Facebook爬虫爬虫站长

喜欢 (0)

0 0

发表回复

登录后才能评论

宝塔不小心把data文件删除，mysql无法启动怎么解决？

用的宝塔面板，因为data里log文件太大了，不小心全部删除了，导致mysql数据库关键文件缺失，无法启动怎么解决？方法一:回收站恢复文件文件删除后，会被放到回收站里，点击左侧…

首晒网
IT技术 2024年 6月 7日
446000
JustNews发布文章时分类支持实时搜索 WordPress主题分类列表魔改优化

今天在散步的时候突然想到一个问题，如果我的网站分类太多了，要选择分类那看的眼睛都花了啊，于是我就在想，能不能给发布页面的分类加一个搜索功能。然后就网上搜，“WordPress发布…

燕云铁站
前端 2025年 7月 27日
404001
做什么类型的网站流量高？分类目录是我做了这么久获得权重和流量最简单的网站

对于要做网站的个人站长来说，可能会觉得能够获得流量，获得关键词权重排名是最重要的一点，但是我告诉你，这只是开始。一旦你完成了这一步，最重要的问题就变成了流量变现。俗话说得好，选择…

七哥建站
站长 2025年 4月 12日
605002
在国内做一个电商平台需要哪些资质？

在国内搭建并运营一个电商平台，需根据业务类型和行业特点依法取得以下主要资质，结合搜索结果中的关键信息整理如下：一、基础企业资质企业法人营业执照需在中国大陆合法注册企业（个体工…

狗哥SEO
电商 2025年 2月 24日
1.5K001
做什么类型的网站最赚钱？该怎么做？

根据当前互联网发展趋势和多个来源的分析，以下是2025年较为赚钱的网站类型及其运营建议，结合盈利模式和实操策略进行总结：一、高盈利网站类型及案例分析 1. 电商与C2C平台特点…

狗哥SEO
站长 2025年 2月 23日
614001
搜狗不收录网站有什么方法可以解决

针对搜狗搜索引擎不收录网站的问题，结合搜索结果中的有效信息，以下是综合性的解决方案及优化建议：一、优化网站内容与结构提升内容质量搜狗优先收录原创、独特且对用户有价值的内容，避…

七哥建站
站长 2025年 4月 13日
508000
惊呆了，一个视频网站系统上演真假美猴王，苹果CMS牛哇！

我是真没想到，一个为盗版视频网站提供代码框架的CMS系统，能玩的这么花，看了好几篇文章才明白怎么回事，给大家梳理一下。就是早期有几个视频网站CMS，如:飞飞CMS、苹果CMS、海…

狗哥SEO
程序开发 2025年 7月 13日
673011
WordPress经常被黑客在目录中增加文件或修改文件内容，如何防护？

为防止黑客在 WordPress 目录中增加或修改文件内容，可从加强访问权限控制、保持软件更新、提升文件安全性等方面入手，具体防护方法如下：限制目录访问权限：在.htaccess…

七哥建站
站长 2025年 7月 6日
657000
Linux服务器上使用iptables自动封IP 配合ipset封恶意爬虫IP教程

Linux上用iptables自动封ip的bash脚本，这个还是有一定效果的。CentOS 内置了一个非常强劲的防火墙，统称为 iptables，但更正确的名称是 iptables…

程序花园
后端 2025年 1月 18日
637001
【详细教程】网站的robots.txt怎么写？不会写你还不会抄吗？

robots.txt是指导各种爬虫是否允许爬取的一个信号，就是大多数爬虫是遵守这个规则的，里面写了不让它爬，他就不会爬了，当然了也有很多爬虫是不遵守规则的，不重要，一般小爬虫才不遵…

狗哥SEO
站长 2025年 7月 27日
555001
为什么大多数人做网站赚不到钱，想赚钱要做到这6点！

大多数人做网站赚不到钱的原因涉及多个层面，以下是关键因素的分析和总结： 1. 缺乏清晰的定位和目标问题：许多人建站时没有明确的目标（例如引流、品牌展示、直接销售等），导致内容或服…

燕云铁站
站长 2025年 2月 11日
408002
哪里买服务器便宜？阿里云腾讯云99元/年，华为云：都别玩了，38元/年！
这几年做网站服务器的成本是越来越低了，原因也就是各大服务器厂商在争抢用户。早期只有阿里云一家独大，其他服务商对它威胁不大，随着腾讯云、华为云的加入，服务器的价格是越来越低！可能…

首晒网
2024年 5月 1日 • 站长
625000
网站有流量，除了通过网盘拉新，还有哪些方法变现赚钱？

除了夸克/百度/迅雷网盘的拉新奖励模式，以下是几种结合用户增长与流量变现的主流方式，涵盖不同行业和技术形态，部分案例已验证可行性：一、广告裂变分润模式通过搭建广告聚合平台，用户…

七哥建站
站长 2025年 7月 8日
931001
网站换服务器后IP变了，百度这些搜索引擎要多久才能反应过来

当网站更换服务器导致IP地址变更后，搜索引擎需要一定时间适应新IP，具体时间取决于以下因素： 1. DNS传播时间（关键因素） DNS全球生效通常需要 24-48小时（最长72小时…

狗哥SEO
站长 2025年 4月 25日
717000
网站记得经常备份数据库，MySQL8.0靠.ibd文件恢复太困难了！

MySQL8.0的很多程序安装后在数据库文件夹里只有.ibd文件，而这个文件是个二进制存储的文件，里面有表结构和表空间，但是直接复制到数据库文件夹里是无法恢复的，还需要做3步操作，…

首晒网
IT技术 2024年 6月 14日
602000
不要放弃网站，来看看字节跳动做过哪些搜索引擎产品？

字节跳动在搜索引擎领域的探索颇为频繁，已推出多款独立搜索产品，旨在构建多元化的搜索生态。以下是其主要的搜索引擎产品及相关发展历程：一、独立搜索引擎产品头条搜索（Toutiao …

七哥建站
站长 2025年 4月 13日
1.0K001
通过JavaScript实现禁止js跳转到非本站域名外的其它域名代码示例

以下是一段实现禁止跳转到非本站域名的JavaScript代码： // 设置允许的域名白名单（包括主域名及其子域名） const allowedDomains = [ locatio…

七哥建站
站长 2025年 7月 20日
557000
网站行业不行了，个人站长正在抛售大量网站和域名！

曾经那个做一个网站，推广淘宝商品的淘客年代，曾经那个做个人博客，放上广告就能赚到钱的年代，已经一去不复返了！虽然说网站时代还没有终结，但是互联网上似乎没有了个人站长的容身之地，以…

首晒网
站长 2024年 7月 14日
544000

亚马逊爬虫Amazonbot根本无法使用iptables屏蔽IP段，太多了！

发表回复

猜你喜欢