欢迎进入东莞市优速网络科技有限公司,多年专注东莞网站建设、东莞网站设计、东莞网站优化的实力技术型企业。

东莞市优速网络科技有限公司

建站不排名,一切等于“0”

10年专注为各行业提供东莞网站优化东莞网站建设服务

承诺:不上首页,全额退款

158-2085-2904(微信同步)
网站首页 > 公司资讯

网站优化如何查看蜘蛛抓取情况

2019-09-06 14:35:42

  网站优化,离不开蜘蛛对网站的爬行。对于很多新站来说,蜘蛛的爬行显得更加重要。新网站上线,会有1-3个月的考核期,这个时间段网站的收录量以及关键词排名情况都不会很好,很多小伙伴每天都会更新网站内容,并且也是原创且符合行业的内容,但是搜索引擎就是不收录,只能干着急。如果网站内容一直不收录或者收录量非常少,我们要查看蜘蛛抓取情况,然后根据实际情况对网站进行调整。
网站优化蜘蛛爬行
  通过FTP,在网站根目录找到一个日志文件,文件名一般包含log,下载解压里面的记事本,这即是网站的日志,记录了网站被访问和操作的情况。
 
  日志内容如下:
 
61.135.168.22 - - [11/Jan/2009:04:02:45 +0800] "GET /bbs/thread-7303-1-1.html HTTP/1.1" 200 8450 "-" "Baiduspider+(+)"
 
  分析:
 
GET /bbs/thread-7303-1-1.html 代表,抓取/bbs/thread-7303-1-1.html 这个页面。
 
200 代表成功抓取。
 
8450 代表抓取了8450个字节。
 
如果你的日志里格式不是如此,则代表日志格式设置不同。
 
很多日志里可以看到 200 0 0和200 0 64 则都代表正常抓取。
 
  我们再来对nginx服务器进行分析,日志文件所在目录  /usr/local/nginx/logs/access.log。
 
  access.log这个文件记录的应该是最近一天的日志情况,首先请看看日志大小,如果很大(超过50MB)建议别用这些命令分析,因为这些命令很消耗CPU,或者更新下来放到分析机上执行,以免影响网站的速度。
 
  Linux shell命令
 
1. 百度蜘蛛爬行的次数
 
cat /var/log/nginx/access.log | grep Baiduspider | wc
 
最左面的数值显示的就是爬行次数。
 
bf98954625c2b3eab7b0751237725e19.png-wh
 
2. 百度蜘蛛的详细记录(Ctrl C可以终止)
 
cat /var/www/log/nginx/access.log | grep Baiduspider
 
也可以用下面的命令:
 
cat /var/log/nginx/access.log | grep Baiduspider | tail -n 10
cat /var/log/nginx/access.log | grep Baiduspider | head -n 10
 
只看最后10条或最前10条,这用就能知道这个日志文件的开始记录的时间和日期。
 
3. 百度蜘蛛抓取首页的详细记录
 
cat /var/log/nginx/access.log | grep Baiduspider | grep “GET / HTTP”
 
百度蜘蛛好像对首页非常热爱每个钟头都来光顾,而谷歌和雅虎蜘蛛更喜欢内页。
 
4. 百度蜘蛛派性记录时间点分布
 
cat /var/log/nginx/access.log | grep “Baiduspider ” | awk ‘{print $4}'
 
5. 百度蜘蛛爬行页面按次数降序列表
 
cat /var/log/nginx/access.log | grep “Baiduspider ” | awk ‘{print $7}' | sort | uniq -c | sort -r。
标签:  网站优化