昊天SEO

网站当天发布文章爬虫抓取率脚本

除了监控当天发布文章收录率,我们还需要监控最新发布文章的抓取率。这边贴 下代码
#!/bin/bash by 老狼
#today_fabu.log 为当天发布的文章链接不带主域:如 /daojian2/gonglue_12542.html
#baiduspider.log 为百度当天抓取的日志URL
#baobiao.txt为最终抓取率、及未抓取链接报表
#sh -n today.sh 回车
for line in `cat test_today_fabu.log`
do
if cat test_baiduspider.log|grep “$line”;then
echo $line “抓取” >>today_crawll.log
else
echo $line “未抓取” >>today_crawll.log
fi
done <test_baiduspider.log
cat today_crawll.log |awk ‘{print $2}’|awk ‘{if($1==”抓取”){n=n+1}}END{print “抓取率”,n/NR*100″%”}’ >baobiao.txt
cat today_crawll.log |awk ‘{print $0}’|awk ‘{if($2==”未抓取”)print $0}’ >>baobiao.txt;
rm today_crawll.log

结果图:

baobiao

未经允许不得转载:新乡seo|网站优化,网站建设—昊天博客 » 网站当天发布文章爬虫抓取率脚本

网站的维护离不开大家的支持鼓励,捐赠让我更有动力走的更远&& 也可以关注我的微信公众号,发布更多的干货
本文网址:https://www.168seo.cn/shell/1251.html

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址