有点咸作者

31 文章

4 评论

5 问题

0 粉丝

闲着也是闲着，写点东西搏君一笑！

网站被Amazonbot和Facebook爬虫爬崩溃？按照这个方法屏蔽爬虫和他们的IP

有点咸 • 2025年 1月 17日下午9:19 • 后端 • 2829 次阅读

这两天我的网站直接被亚马逊和Facebook的爬虫爬崩了，为了训练AI到处爬，我也是无语了，在服务器上网站日志看到以下代码就是Facebook的爬虫：

+https://developers.facebook.com/docs/sharing/webmasters/crawler

以下代码的是亚马逊爬虫，亚马逊爬虫有标识“Amazonbot”：

+https://developer.amazon.com/support/amazonbot

最狠的是Facebook的爬虫，我的网站基本上就是被它爬崩的，我这边有两个方法屏蔽它们的爬虫，一个是使用robots.txt，另一个就是直接屏蔽IP段。

一、设置robots.txt屏蔽爬虫

首先我们需要搞清楚这两个爬虫的User-agent: 名字，这边已经给大家查到了，亚马逊的就是Amazonbot，而Facebook的是meta-externalagent，它们的官网上都有说，不过设置robots.txt需要24小时才能完成更新，这期间服务器是非常难受的，不过还是可以先设置一下，把下面的代码加入robots.txt中：

User-agent: meta-externalagent
Disallow: /
User-agent: Amazonbot
Disallow: /

还有其它的乱七八糟的爬虫，大家也可以一起加进去，除了几个搜索引擎的蜘蛛，其它爬虫都浪费服务器资源。

二、Linux服务器屏蔽IP段

我有用宝塔面板后台安全-IP规则，设置不上去，所以我直接用SSH远程服务器进行屏蔽。

这边我确定了Facebook爬虫的IP是57.141.3.*这个IP段的，那么我们在SSH输入以下代码：

iptables -I INPUT -p tcp -s 57.141.3.0/24 -j DROP

然后输入以下代码确认规则是否添加成功：

sudo iptables -L -n

这两个方法都很简单，Linux上屏蔽IP段的方法这篇文章写的更详细些：https://www.shoushai.com/p/982

另外我有一点建议，Linux远程SSH用完后，建议关闭22端口，即在安全组上删除这个即可。除了自己使用，22端口保持长期关闭最为安全。

本文来自投稿，不代表首晒立场，如若转载，请注明出处：https://www.shoushai.com/p/983

Amazonbot Linux Linux服务器服务器爬虫站长

喜欢 (2)

0 2

发表回复

登录后才能评论

网友热评(2)

网站被亚马逊蜘蛛和Facebook爬虫搞崩溃，Linux服务器怎么屏蔽IP段？ | 首晒 2025年 1月 17日下午9:43

[…] robots.txt设置和IP段屏蔽介绍：https://www.shoushai.com/p/983 […]

回复
亚马逊爬虫Amazonbot根本无法使用iptables屏蔽IP段，太多了！ | 首晒 2025年 1月 18日上午1:16

[…] 关于网友分享的被爬虫攻击，屏蔽IP段的方法，这篇文章里（https://www.shoushai.com/p/983）讲了两个蜘蛛爬虫，一个Facebook确实可以使用iptables来屏蔽IP段，但是Amazonbot爬虫的IP实在是太多了，而且都不是同一个段的IP，根本就禁不完。 […]

回复

做网站什么云服务器好？无脑选阿里云这款，便宜又好用！

新项目选服务器，无脑选这个链接里99和199的就行了：https://www.aliyun.com/minisite/goods?userCode=ix8av5af 大部分新手开始…

云计算
站长 2025年 1月 30日
615000
阿里云学生服务器多少钱一年？不是学生也99元/年了！
还在问阿里云学生ECS服务器多少钱一年？很早起阿里云的优惠就不仅仅针对学生了，之前最早的时候需要学生认证，后面只需要年龄24周岁内就能买！而现在，完全不限制了，只要有账号就能买…

首晒网
2024年 5月 7日 • 站长
403000
Discuz！X5.0的伪静态规则怎么写？附Apache .htaccess文件免费下载，并分享修改成Nginx伪静态教程

昨天用Discuz！X5.0搭建了一个论坛网站，网上没有找到伪静态的规则，我自己让豆包写的规则，确认可以使用，分享出来了哈。下载地址：文章最下方一、先在后台勾选要启用伪静态的页…

七哥建站
站长 2026年 3月 9日
91001
做一个虚拟资源下载网站一个月能赚多少钱？

做一个虚拟资源下载网站的收入潜力是比较灵活的，可能因多种因素而异，包括网站的访问量、资源的需求量以及用户付费意愿等。以下是一些影响收入的关键因素：然而，尽管存在这些变量，但搭建…

首晒网
站长 2024年 5月 11日
506000
为什么我不建议新手站长选择做视频网站，来看看一个10万个4M短视频的网站每个月要多少钱

要搭建一个拥有 10 万个 4M 视频的短视频网站，服务器配置和成本需从存储、带宽、计算资源等多维度评估：一、存储需求 10 万个 4M 视频总容量为 400GB，建议采用分层存…

七哥建站
站长 2025年 7月 6日
826000
“我做网站赚不到钱的原因是：只做网站不更新内容！”这是大多数草根个人站长的通病

很多人可能早期做网站是一种兴趣，做一个很多人都在用的网站就很有成就感。不过慢慢的长大了，觉得是要利用网站变现挣钱了，本来网站时一个拿流量的工具，自然是可以挣钱的。 1、为什么我的网…

七哥建站
站长 2025年 6月 8日
644001
心悦搜索（Xinyue-Search）去除右边热搜，让左边部分布满全部页面的修改方法

用这个程序我不太喜欢热搜这个功能，毕竟这是个搜索引擎，有热搜的话侵权嫌疑就更大了。首先可以在心悦后台，资源-分类管理那里，是否前台展示，把所有分类的这个按钮全都关了，这样前台和列…

七哥建站
站长 2025年 8月 24日
3.6K000
心悦搜索API免费版分享及设置教程 Xinyue Search短剧网盘搜索程序

准备工作先更新以下你的心悦搜索程序，更新到最新的V3.6版本，最新版下载地址： V3.6下载地址：https://pan.quark.cn/s/7cc0814d5f47 V3.6…

七哥建站
站长 2025年 8月 24日
15.2K002
2024年做什么类型的网站还能够赚钱？

教育和培训资源：提供在线课程、电子书、视频教程等教育资源，如编程、设计、语言学习等，小众产品导购：专注于某个小众市场，如特定类型的收藏品、特殊兴趣爱好等，通过联盟营销赚取佣金……

创客时代
互联网 2024年 11月 5日
1.1K000
站长

阿里云学生ECS服务器没了吗？最新的购买地址在这里！

随着服务器越来越多，阿里云曾经需要学生认证的云服务器，现在对所有人都开放了，并且没有了年龄限制，同样最低99元/年，续费同价，也是99元/年，最新购买地址：https://www.…

首晒网
2024年 5月 1日
632000
做网站哪些CMS源码好用？

在选择网站源码时，需要考虑多个方面以确保所选程序的适用性、安全性和可维护性。下面将推荐一些好用的网站源码：此外，在选择网站源码时，还需要注意以下几点：总的来说，不同的网站源码各…

首晒网
站长 2024年 5月 28日
836000
都2024年了，现在发外链还能给网站增加权重吗？

现在发外链是否还有效果？还能够给网页增加权重，增加关键词搜索排名吗？还能够帮助网页快速收录吗？外链，或者称为回链，在搜索引擎优化（SEO）中扮演着比较重要的角色。它们被搜索引擎用…

首晒网
站长 2024年 7月 16日
686000
JustNews发布文章时分类支持实时搜索 WordPress主题分类列表魔改优化

今天在散步的时候突然想到一个问题，如果我的网站分类太多了，要选择分类那看的眼睛都花了啊，于是我就在想，能不能给发布页面的分类加一个搜索功能。然后就网上搜，“WordPress发布…

燕云铁站
前端 2025年 7月 27日
624001
网站换服务器后IP变了，百度这些搜索引擎要多久才能反应过来

当网站更换服务器导致IP地址变更后，搜索引擎需要一定时间适应新IP，具体时间取决于以下因素： 1. DNS传播时间（关键因素） DNS全球生效通常需要 24-48小时（最长72小时…

狗哥SEO
站长 2025年 4月 25日
970000
做什么类型的网站流量高？分类目录是我做了这么久获得权重和流量最简单的网站

对于要做网站的个人站长来说，可能会觉得能够获得流量，获得关键词权重排名是最重要的一点，但是我告诉你，这只是开始。一旦你完成了这一步，最重要的问题就变成了流量变现。俗话说得好，选择…

七哥建站
站长 2025年 4月 12日
829002
哪里买服务器便宜？阿里云腾讯云99元/年，华为云：都别玩了，38元/年！
这几年做网站服务器的成本是越来越低了，原因也就是各大服务器厂商在争抢用户。早期只有阿里云一家独大，其他服务商对它威胁不大，随着腾讯云、华为云的加入，服务器的价格是越来越低！可能…

首晒网
2024年 5月 1日 • 站长
792000
国内高防BGP服务器哪家服务商的好？

在国内，提供BGP服务器的知名服务商包括中国联通、中国电信、中国移动等主要的网络运营商，以及一些较大的民营IDC运营商。他们通过BGP协议实现多线互联，确保不同网络运营商用户的高速…

首晒网
互联网 2024年 4月 28日
588000
【前言】网站搭建从0-1教程

按照我从高中开始搭建网站至今来算，已有十年之久，其实做一个网站说简单也简单，说难也难，具体看你需要搭建一个怎么样的网站。先来说说搭建一个网站需要多少钱？搭建网站是没有固定所需资…

首晒网
站长 2024年 10月 23日
597000

网站被Amazonbot和Facebook爬虫爬崩溃？按照这个方法屏蔽爬虫和他们的IP

一、设置robots.txt屏蔽爬虫

二、Linux服务器屏蔽IP段

发表回复

网友热评(2)

猜你喜欢