爬虫 | 首晒

站长

服务器又被爬虫爬宕机了，然后我去看了下网站日志，一堆Amazonbot和GPTBot的请求，我记得我是在robots.txt屏蔽了这些蜘蛛的，于是我检查了robots.txt，确实…

2025年 12月 17日

512010

最近在研究网页爬虫程序，选择了Snoopy这个爬虫，但是在抓取https的链接第二层链接时（即首页上的超级链接），抓取的链接出现以下错误，例：正确链接是https://www.ba…

后端 2025年 8月 30日

4.4K000

robots.txt是指导各种爬虫是否允许爬取的一个信号，就是大多数爬虫是遵守这个规则的，里面写了不让它爬，他就不会爬了，当然了也有很多爬虫是不遵守规则的，不重要，一般小爬虫才不遵…

站长 2025年 7月 27日

868001

网站的robots.txt怎么写？不同网站写法不一样，主要是看你用的什么程序，像是WordPress有个默认的robots.txt文件，你直接在网站后加上robots.txt按回车…

站长 2025年 7月 24日

841012

导致服务器CUP占用率过高的可能性有很多，正常来说，你的网站被DDOS攻击了，或者是CC攻击，都会占用你服务器线程，导致你的CUP长期占用率高达100%，甚至直接宕机。但是还有一…

站长 2025年 7月 16日

887001

关于网友分享的被爬虫攻击，屏蔽IP段的方法，这篇文章里（https://www.shoushai.com/p/983）讲了两个蜘蛛爬虫，一个Facebook确实可以使用iptabl…

后端 2025年 1月 18日

1.1K000

首先如果你的网站打开特别慢，你可以怀疑是AI的爬虫来爬你的内容了，这些爬虫非常疯狂，之前就有OpenAI把乌克兰网站Trilegangers爬崩溃的例子，ChatGPT公司表示会尊…

后端 2025年 1月 17日

864001

这两天我的网站直接被亚马逊和Facebook的爬虫爬崩了，为了训练AI到处爬，我也是无语了，在服务器上网站日志看到以下代码就是Facebook的爬虫： +https://devel…

后端 2025年 1月 17日

2.9K022