【详细教程】网站的robots.txt怎么写?不会写你还不会抄吗?

robots.txt是指导各种爬虫是否允许爬取的一个信号,就是大多数爬虫是遵守这个规则的,里面写了不让它爬,他就不会爬了,当然了也有很多爬虫是不遵守规则的,不重要,一般小爬虫才不遵守规则。

我先教你们怎么写robots.txt文件,再教你们抄

先看两个写法例子:

User-agent: Baiduspider
Allow: /

User-agent:Baiduspider
Disallow:/

这两个都是写百度蜘蛛的,一个是从哔哩哔哩里复制的,另一个是从小红书里复制的,他们一个允许百度爬,一个不允许百度爬。

其中User-agent:后跟的就是你需要允许或禁止的爬虫,允许的话下一行就写就Allow: /,不允许下一行就写Disallow:/,Allow和Disallow就是英文允许和不允许的意思。

上面这样写是允许或不允许爬取网站的所有目录(地址),如果你指定不允许某个目录,也是可以的。

一般来说,禁止某个目录,这个目录一般是后台地址,所有蜘蛛都不允许爬的,假设后台地址是/admin,那么我们就这样写:

User-agent: *
Disallow:/admin/

其中*是通配符,所有蜘蛛都要看这条,如果你不允许的是某个文件而不是目录,假设是admin.php,那么就这样写:

User-agent: *
Disallow:/admin.php

User-agent:有指定某个蜘蛛的优先级高于*通配符,也就是允许和不允许可以同时存在,例如我只想让百度爬,其它蜘蛛全都禁止,那么这样写:

User-agent: Baiduspider
Allow: /

User-agent: *
Disallow: /

这个是哔哩哔哩的写法,所以你不用质疑它真实性,这样写就是能达到只允许百度爬的效果。

好了,学会了怎么写,下面教你怎么抄

抄就简单了啊,我们知道robots.txt文件都是放在根目录的,所以直接网址后加/robots.txt就能看到了,比如看哔哩哔哩的

https://www.bilibili.com/robots.txt

太长了我就不复制过来了,它是禁止所有蜘蛛爬重要地址,然后允许一些搜索引擎的爬虫,最后在禁止其它所有爬虫,你想要相同效果,可以复制它的,最上面三行不要,或者改成你自己不允许所有爬虫爬的重要地址。

然后我们在看看小红书的,地址是:

https://www.xiaohongshu.com/robots.txt

这就简单多了,禁止所有爬虫爬,它先强调了禁止百度、搜狗、Google这些搜索引擎的蜘蛛爬,最后用通配符禁止所有爬虫爬,平台足够大,不需要搜索引擎作为入口,是可以这样写的。

各种版本robots.txt下载

怕麻烦不想写,可以下载现成的,有通用版和WordPress各种版本(默认禁止所有AI爬):

本文来自投稿,不代表首晒立场,如若转载,请注明出处:https://www.shoushai.com/p/1612

喜欢 (1)

发表回复

登录后才能评论

猜你喜欢