Robots.txt是一个文本文件,网站管理员用来告诉网络机器人(主要是搜索引擎机器人)如何抓取他们网站的页面。robots.txt文件是机器人排除协议(REP)的一部分,这是一套网络标准,管理机器人如何探索网络、访问和索引材料,并将其提供给人们。REP还包含一些指令,如Meta机器人和关于搜索引擎应如何解释一个页面、子目录或整个网站上的链接的说明。
实际上,robots.txt文件指定是否允许特定的用户代理(网络抓取软件)抓取某些网站区域。在这些抓取指令中,选定的或所有的用户代理的行为是 "不允许 "或 "允许"。
robots.txt的目的是什么?
搜索引擎的主要功能是:。
抓取网络上的材料;对这些内容进行分类,以便将其传递给信息搜寻者。
搜索引擎通过跟踪从一个网站到下一个网站的链接来扫描网站,最终爬行数十亿的连接和网页。"Spidering "是一个用来描述这种爬行活动的术语。
搜索爬虫在登陆一个网站后,但在窥视该网站之前,会寻找一个 robots.txt 文件。爬虫在找到它之前会先阅读它,然后再转到下一个页面。robots.txt文件中获得的信息将指导爬虫在该网站上的后续行为,因为它包括搜索引擎应如何爬行的信息。如果robots.txt文件中没有指令,如果用户活动代理被禁止,或者网站缺乏robots.txt文件,它将抓取网站上的其他信息。
robots.txt的用途
爬虫对你网站某些区域的访问是通过 robots.txt 文件控制的。虽然如果你错误地阻止Googlebot探索你的整个网站,这可能是相当有害的(!),但有些时候,robots.txt文件可能很方便。
以下是一些经常使用的案例。
它可以防止重复的材料显示在搜索引擎结果页(SERP)上。值得注意的是,Meta机器人在这方面经常是一个优越的选择。
一个网站的整个区域都可以成为隐私。考虑一下你的工程团队的暂存区。
它们使内部搜索结果页不会出现在公共搜索引擎结果页上。
定义网站地图的地址(s)。
使你网站上的一些文件不被搜索引擎收录(图片、PDF等)。
他们定义了一个爬行延迟,以避免在爬行器一次加载许多材料时使你的服务器负担过重。
关于robots.txt的一些事情需要了解。
robots.txt文件必须放在网站的顶级目录中。
该文件必须命名为 "robots.txt",因为它是区分大小写的。
你的robots.txt文件可能会被一些用户代理(机器人)所忽略。尤其是那些比较恶意的爬虫,如恶意软件机器人和电子邮件地址搜刮者,更是如此。
文件/robots.txt是对公众开放的。这意味着任何人都可以看到你想抓取的网站和你不想抓取的网站,所以不要用它们来隐藏个人信息。
作为最佳做法,与该域名链接的网站地图的位置应在 robots.txt 文件的底部指定。
你是否有兴趣了解更多关于机器人文本的信息?那么请访问海鹰传媒的网站了解一下。