robots协议最容易忽略却很致命的小细节

在我看来,机器人协议是站长对网站行使控制权的执行文件,这是我们作为站长最基本的权利。这是搜索引擎蜘蛛在抓取网站之前必须面对的第一个入口,所以机器人协议的重要性是可以想象的。据说细节决定成败,所以更重要的细节是[……]

在我看来,机器人协议是站长对网站行使控制权的执行文件,这是我们作为站长最基本的权利。这是搜索引擎蜘蛛在抓取网站之前必须面对的第一个入口,所以机器人协议的重要性是可以想象的。据说细节决定成败,所以事情越重要,细节就越重要,一个经常被忽视的细节最终可能会成为你致命的一击。我这样说的原因是因为我几乎成了这个问题的反面例子。幸运的是,及时的发现可以被视为弥补损失的一种方法。我想马上和你分享的原因是,我希望你以后在做自己的站时避免犯类似的错误。

今天事情真的发生了,过程是这样的:因为栗子搜索引擎优化博客刚刚完成,几天前,网站上线后,发现还有很多小问题需要处理。为了避免网站在调整期间被搜索引擎抓取,我在机器人协议中写了一条指令,禁止所有搜索引擎抓取网站的任何部分。网站的调整持续了好几天(之所以花了这么长时间,是因为我不能容忍瑕疵,也不知道这是不是一种强迫症),直到昨天2月3日才完全完成,但在此期间,我坚持每天都要添加原创文章。昨天,在检查了网站并解决了所有问题后,我更换了机器人协议,发了一个帖子来吸引蜘蛛,希望爬虫能尽快爬上我的网站。就这样,今天早上,我发现网站还是没有收录,所以我去百度站长工具平台看看我的网站是什么样子,我进去的时候很震惊,因为我看到了下面的消息(如图所示):

robots协议最容易忽略却很致命的小细节@

我的网站已经完全封杀了百度,检测时间是今天早上5点(2月4日),这让我觉得像张耳的和尚一样迷惑,太糟糕了。正当我迷惑不解的时候,我终于通过站长平台工具的“机器人探测”找到了答案。请看下图:

robots协议最容易忽略却很致命的小细节@

百度蜘蛛在我网站上线的第三天就已经抓取了我网站的机器人协议,所以现在有效的协议就是我当时屏蔽所有蜘蛛时抓取的那个,这个网站最新的机器人协议还没有生效。现在我终于明白了。既然我知道了原因,事情就简单了。于是我立即提交并更新了协议,如下图所示:

robots协议最容易忽略却很致命的小细节@

协议在更新后一分钟内更新,如下图所示:

robots协议最容易忽略却很致命的小细节@

可以看到,这个网站上最新的机器人已经开始生效,所以下午,当我再次进入百度站长平台时,我收到了一条新的消息,如下图所示:

robots协议最容易忽略却很致命的小细节@

到目前为止,这个网站已经解除了机器人协议对百度的全面禁止,检测时间显示为今天下午2: 00。晚上,已经快三个小时了。当我再次查看网站的列表时,网站的主页已经被列出来了。如下图所示:

robots协议最容易忽略却很致命的小细节

网站终于被收录了,但最让我开心的是我通过自己的努力发现并解决了问题,这是我今天最大的收获。当然,如果我找不到这个问题,也许网站在十天半内不会有任何改进,所以我想提醒大家,在禁止蜘蛛后,我们必须记得在后期解封时及时更新机器人协议。这是一个不可忽视的小细节。也许根据我的常识,我觉得只要输入“http://域名/robots.txt”就足以看出网站的协议有没有改变,但实践证明这种方式并不完全可靠,所以这次我们一定要记住我的经验和教训。一旦做出调整,机器人必须记得及时提交更新,否则如果被不该被抓的蜘蛛抓到,或者把它们挡在门外拖延时间,他们会后悔的。

温馨小提示:看看时间,时钟已经转到了第二天。这篇文章的写作时间是2月4日,但现在出版时间已经转到2月5日,所以文章中提到的“今天”也是2月4日。我希望每个人都不会困惑。