昊天SEO

网站当天发布文章爬虫抓取率脚本

除了监控当天发布文章收录率,我们还需要监控最新发布文章的抓取率。这边贴 下代码
#!/bin/bash by 老狼
#today_fabu.log 为当天发布的文章链接不带主域:如 /daojian2/gonglue_12542.html
#baiduspider.log 为百度当天抓取的日志URL
#baobiao.txt为最终抓取率、及未抓取链接报表
#sh -n today.sh 回车
for line in `cat test_today_fabu.log`
do
if cat test_baiduspider.log|grep “$line”;then
echo $line “抓取” >>today_crawll.log
else
echo $line “未抓取” >>today_crawll.log
fi
done <test_baiduspider.log
cat today_crawll.log |awk ‘{print $2}’|awk ‘{if($1==”抓取”){n=n+1}}END{print “抓取率”,n/NR*100″%”}’ >baobiao.txt
cat today_crawll.log |awk ‘{print $0}’|awk ‘{if($2==”未抓取”)print $0}’ >>baobiao.txt;
rm today_crawll.log

结果图:

baobiao

本文地址官网    新乡网站建设,seo

分享到:更多 ()

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址