robots.txt是指导各种爬虫是否允许爬取的一个信号,就是大多数爬虫是遵守这个规则的,里面写了不让它爬,他就不会爬了,当然了也有很多爬虫是不遵守规则的,不重要,一般小爬虫才不遵守规则。
我先教你们怎么写robots.txt文件,再教你们抄
先看两个写法例子:
User-agent: Baiduspider
Allow: /
User-agent:Baiduspider
Disallow:/
这两个都是写百度蜘蛛的,一个是从哔哩哔哩里复制的,另一个是从小红书里复制的,他们一个允许百度爬,一个不允许百度爬。
其中User-agent:后跟的就是你需要允许或禁止的爬虫,允许的话下一行就写就Allow: /,不允许下一行就写Disallow:/,Allow和Disallow就是英文允许和不允许的意思。
上面这样写是允许或不允许爬取网站的所有目录(地址),如果你指定不允许某个目录,也是可以的。
一般来说,禁止某个目录,这个目录一般是后台地址,所有蜘蛛都不允许爬的,假设后台地址是/admin,那么我们就这样写:
User-agent: *
Disallow:/admin/
其中*是通配符,所有蜘蛛都要看这条,如果你不允许的是某个文件而不是目录,假设是admin.php,那么就这样写:
User-agent: *
Disallow:/admin.php
User-agent:有指定某个蜘蛛的优先级高于*通配符,也就是允许和不允许可以同时存在,例如我只想让百度爬,其它蜘蛛全都禁止,那么这样写:
User-agent: Baiduspider
Allow: /User-agent: *
Disallow: /
这个是哔哩哔哩的写法,所以你不用质疑它真实性,这样写就是能达到只允许百度爬的效果。
好了,学会了怎么写,下面教你怎么抄
抄就简单了啊,我们知道robots.txt文件都是放在根目录的,所以直接网址后加/robots.txt就能看到了,比如看哔哩哔哩的:
太长了我就不复制过来了,它是禁止所有蜘蛛爬重要地址,然后允许一些搜索引擎的爬虫,最后在禁止其它所有爬虫,你想要相同效果,可以复制它的,最上面三行不要,或者改成你自己不允许所有爬虫爬的重要地址。
然后我们在看看小红书的,地址是:
这就简单多了,禁止所有爬虫爬,它先强调了禁止百度、搜狗、Google这些搜索引擎的蜘蛛爬,最后用通配符禁止所有爬虫爬,平台足够大,不需要搜索引擎作为入口,是可以这样写的。
各种版本robots.txt下载
怕麻烦不想写,可以下载现成的,有通用版和WordPress各种版本(默认禁止所有AI爬):
本文来自投稿,不代表首晒立场,如若转载,请注明出处:https://www.shoushai.com/p/1612