Robots.txt

机器人txt

Robots.txt是一个文本文件,网站管理员用来告诉网络机器人(主要是搜索引擎机器人)如何抓取他们网站的页面。robots.txt文件是机器人排除协议(REP)的一部分,这是一套网络标准,管理机器人如何探索网络、访问和索引材料,并将其提供给人们。REP还包含一些指令,如Meta机器人和关于搜索引擎应如何解释一个页面、子目录或整个网站上的链接的说明。

实际上,robots.txt文件指定是否允许特定的用户代理(网络抓取软件)抓取某些网站区域。在这些抓取指令中,选定的或所有的用户代理的行为是 "不允许 "或 "允许"。

robots.txt的目的是什么?

搜索引擎的主要功能是:。

抓取网络上的材料;对这些内容进行分类,以便将其传递给信息搜寻者。

搜索引擎通过跟踪从一个网站到下一个网站的链接来扫描网站,最终爬行数十亿的连接和网页。"Spidering "是一个用来描述这种爬行活动的术语。

搜索爬虫在登陆一个网站后,但在窥视该网站之前,会寻找一个 robots.txt 文件。爬虫在找到它之前会先阅读它,然后再转到下一个页面。robots.txt文件中获得的信息将指导爬虫在该网站上的后续行为,因为它包括搜索引擎应如何爬行的信息。如果robots.txt文件中没有指令,如果用户活动代理被禁止,或者网站缺乏robots.txt文件,它将抓取网站上的其他信息。

robots.txt的用途

爬虫对你网站某些区域的访问是通过 robots.txt 文件控制的。虽然如果你错误地阻止Googlebot探索你的整个网站,这可能是相当有害的(!),但有些时候,robots.txt文件可能很方便。

以下是一些经常使用的案例。

它可以防止重复的材料显示在搜索引擎结果页(SERP)上。值得注意的是,Meta机器人在这方面经常是一个优越的选择。

一个网站的整个区域都可以成为隐私。考虑一下你的工程团队的暂存区。

它们使内部搜索结果页不会出现在公共搜索引擎结果页上。

定义网站地图的地址(s)。

使你网站上的一些文件不被搜索引擎收录(图片、PDF等)。

他们定义了一个爬行延迟,以避免在爬行器一次加载许多材料时使你的服务器负担过重。

关于robots.txt的一些事情需要了解。 

robots.txt文件必须放在网站的顶级目录中。

该文件必须命名为 "robots.txt",因为它是区分大小写的。

你的robots.txt文件可能会被一些用户代理(机器人)所忽略。尤其是那些比较恶意的爬虫,如恶意软件机器人和电子邮件地址搜刮者,更是如此。

文件/robots.txt是对公众开放的。这意味着任何人都可以看到你想抓取的网站和你不想抓取的网站,所以不要用它们来隐藏个人信息。

作为最佳做法,与该域名链接的网站地图的位置应在 robots.txt 文件的底部指定。

你是否有兴趣了解更多关于机器人文本的信息?那么请访问海鹰传媒的网站了解一下。

有机搜索
WordPress词汇表
Komal Bothra

什么是有机搜索?

有机搜索是通过无偿或有偿的方式为你的网站赚取流量的过程。

按下此键
WordPress词汇表
Komal Bothra

什么是WordPress This?

按 这是在WordPress的一个功能,允许用户快速和容易地

科马尔-博特拉 2023年2月4日

什么是代理服务器?

代理服务器是一台计算机,它在你的计算机和你的朋友之间充当一个中介。

托管词汇
科马尔-博特拉 2023年2月3日

搜索引擎营销(SEM) 

搜索引擎营销,或称SEM,是一种使用付费广告的网络营销形式。

搜索引擎术语
科马尔-博特拉 2023年2月2日

案例研究。马布里技术解决方案

Mabry Tech是一家专门为企业提供咨询和开发创新解决方案的公司。马布里的

案例研究

开始使用Seahawk

在我们的应用程序中注册,查看我们的价格并获得折扣。