网站优化,离不开蜘蛛对网站的爬行。对于很多新站来说,蜘蛛的爬行显得更加重要。新网站上线,会有1-3个月的考核期,这个时间段网站的收录量以及关键词排名情况都不会很好,很多小伙伴每天都会更新网站内容,并且也是原创且符合行业的内容,但是搜索引擎就是不收录,只能干着急。如果网站内容一直不收录或者收录量非常少,我们要查看蜘蛛抓取情况,然后根据实际情况对网站进行调整。
通过FTP,在网站根目录找到一个日志文件,文件名一般包含log,下载解压里面的记事本,这即是网站的日志,记录了网站被访问和操作的情况。
日志内容如下:
61.135.168.22 - - [11/Jan/2009:04:02:45 +0800] "GET /bbs/thread-7303-1-1.html HTTP/1.1" 200 8450 "-" "Baiduspider+(+)"
分析:
GET /bbs/thread-7303-1-1.html 代表,抓取/bbs/thread-7303-1-1.html 这个页面。
200 代表成功抓取。
8450 代表抓取了8450个字节。
如果你的日志里格式不是如此,则代表日志格式设置不同。
很多日志里可以看到 200 0 0和200 0 64 则都代表正常抓取。
我们再来对nginx服务器进行分析,日志文件所在目录 /usr/local/nginx/logs/access.log。
access.log这个文件记录的应该是最近一天的日志情况,首先请看看日志大小,如果很大(超过50MB)建议别用这些命令分析,因为这些命令很消耗CPU,或者更新下来放到分析机上执行,以免影响网站的速度。
Linux shell命令
1. 百度蜘蛛爬行的次数
cat /var/log/nginx/access.log | grep Baiduspider | wc
最左面的数值显示的就是爬行次数。
bf98954625c2b3eab7b0751237725e19.png-wh
2. 百度蜘蛛的详细记录(Ctrl C可以终止)
cat /var/www/log/nginx/access.log | grep Baiduspider
也可以用下面的命令:
cat /var/log/nginx/access.log | grep Baiduspider | tail -n 10
cat /var/log/nginx/access.log | grep Baiduspider | head -n 10
只看最后10条或最前10条,这用就能知道这个日志文件的开始记录的时间和日期。
3. 百度蜘蛛抓取首页的详细记录
cat /var/log/nginx/access.log | grep Baiduspider | grep “GET / HTTP”
百度蜘蛛好像对首页非常热爱每个钟头都来光顾,而谷歌和雅虎蜘蛛更喜欢内页。
4. 百度蜘蛛派性记录时间点分布
cat /var/log/nginx/access.log | grep “Baiduspider ” | awk ‘{print $4}'
5. 百度蜘蛛爬行页面按次数降序列表
cat /var/log/nginx/access.log | grep “Baiduspider ” | awk ‘{print $7}' | sort | uniq -c | sort -r。