查看百度蜘蛛是否来网站的重要方法

百度蜘蛛什么时候频繁抓取我们的网站,什么时候需要更新我们的内容?可以通过我们的服务器IIS日志简单分析一下。下面是一些IIS日志分析的网站问题。

一、IIS日志

1的重要作用。通过IIS日志,可以了解蜘蛛在网站上的基本爬行情况,可以了解蜘蛛的爬行轨迹和爬行量。通过我们的IIS日志,外部链接的数量和数量直接影响网站蜘蛛的抓取量。我们称之为链接诱饵的是,如果你制作了一个外部链接,蜘蛛可以通过你在抓取这个外部链接页面时留下的链接抓取你的网站并释放它。

2的更新频率。网站也与IIS日志中蜘蛛爬行频率有关。一般来说,更新频率越高,蜘蛛爬行频率越高。我们网站的更新不仅仅是新增内容,更是我们的微调操作。

3。我们可以根据IIS日志的反应,对我们空间中的一些事情和问题进行预警,因为如果服务器出了问题,会立即反映到IIS日志中,要知道服务器的稳定速度和打开速度都会直接影响到我们的网站。

4。通过IIS日志,可以知道网站哪些页面非常受蜘蛛欢迎,哪些页面没有被蜘蛛触碰。同时,我们也可以发现,一些蜘蛛由于过度爬行,对我们的服务器资源造成了很大的损失,所以我们需要对它们进行屏蔽。

2。日志设置

1如何下载日志及注意事项?首先我们的空间要支持IIS日志下载,这个很重要。在买空间之前,我们必须先问一下它是否不支持IIS日志下载,因为有些服务提供商不提供这项服务。如果有,空间后台一般有日志WebLog日志下载功能,可以下载到根目录,通过FTP本地传输,服务器可以将需要下载的日志文件设置到指定路径。

2。这里有一个很重要的问题。强烈建议每小时生成一次IIS日志。页面内容较少的小型企业站和网站可以设置为一天。默认设置为一天。如果内容多或者大站设置为一天生成一次,那么每天只生成一个文件,那就相当大了。有时候电脑开机会导致死机。如果设置了,可以要求空间提供商协调设置。

三。IIS日志

1的分析。日志的后缀名称是log。我们用记事本打开,选择格式中的自动换行,看起来很方便。同时,我们使用搜索功能搜索BaiduSpider和Googlebot。

例如:

Baidu Spider

2012-03-1300:47336010 w3svc 177116 . 255 . 169 . 37 get/-80-220 . 181 . 51 . 144 Baidu Spider-Favo(Baidu/Search/Spider)20000156

Google bot

2012-03-130833601836048 w3svc 177

我们来解释一下

2012-03-1300:47336010蜘蛛爬行的日期和时间

W3SVC177这是机器码,这是唯一的。

116.255.169.37,这个IP地址就是服务器的IP地址。

GET表示事件。

GET后面是蜘蛛爬的网页。斜线代表首页

80代表港口

220.181.51.144。这个IP是蜘蛛的IP。在这里,我们告诉你一个鉴别真假百度蜘蛛的方法。我们的电脑点击开始运行,输入cmd打开命令提示符,输入nslookup空间和蜘蛛IP,点击回车。一般真正的百度蜘蛛都有自己的服务器IP,而假蜘蛛没有。

如果网站中有大量的假蜘蛛,说明有人冒充百度蜘蛛来收集你的内容,你需要注意。如果太猖狂,会占用你的服务器资源,我们需要屏蔽他们的IP。

20000这是状态码的意思。可以百度搜索。

197265最后两个数字代表访问和下载的数据字节数。

2。我们分析的时候,先看状态码200,表示下载成功,304,表示页面没有修改,500,表示服务器超时。这些都是一般其他可以百度的代码,我们要处理不同的问题。

3。我们想知道蜘蛛经常抓取哪些页面。我们要记录它们,分析它们为什么经常被蜘蛛爬行,从而分析蜘蛛喜欢什么。

4.有时候我们的路径不统一,有没有斜线都有问题。蜘蛛会自动识别为301,跳转到有斜线的页面。在这里我们发现搜索引擎可以判断我们的目录,所以我们应该统一我们的目录。

5。我们分析日志很久了,可以看到蜘蛛的爬行规律。可以看到同一个目录下单个文件的爬行频率间隔,以及不同目录的爬行频率间隔。这些爬行频率间隔由蜘蛛根据网站权重和网站更新频率自动确定。

6。蜘蛛对我们页面的抓取是分级的,按照权重依次递减。一般顺序是首页、目录页、内页。

7。不同IP的蜘蛛有不同的爬行频率。