以前经常在这个网站上下载电影下来看,这个网站比较坑的就是,主页上只有电影的名称,但是评分是看不到的;只有再点击电影名字,进入电影主页时才能看到评分。一般下载的电影都是评分高的才看,低的就忽略掉了。每次都要来回去看评分,太麻烦了。So,我就写了一个小小的爬虫,暂时就叫爬虫好了。

在脚本中使用的是:python2.7 + selenium + unittest + chrome(其实我想用phantomjs的,但是在抓取评分的时候,老是抓取不到,好像是js搞的鬼)

其实流程很简单:1、进入主页获取电影的title和url,2、根据获取的url,获取该电影的评分score,3、保存结果到本地文件中

1、进入主页获取电影的title和url

python+selenium+unittest,爬虫电影网站-新乡seo|网站优化,网站建设_微信公众号:zeropython—昊天博客

web

2、根据获取的url,获取该电影的评分score

python+selenium+unittest,爬虫电影网站-新乡seo|网站优化,网站建设_微信公众号:zeropython—昊天博客

get score

下面我就逐步分解:

首先,进入该网站的主页,利用webdriver来定位电影,然后获取所有电影的属性:title,url,使用的定位是css

python+selenium+unittest,爬虫电影网站-新乡seo|网站优化,网站建设_微信公众号:zeropython—昊天博客

getcss

2、根据获取的url,获取该电影的评分score

python+selenium+unittest,爬虫电影网站-新乡seo|网站优化,网站建设_微信公众号:zeropython—昊天博客

 

下面是最终的代码:

运行的最终结果:

python+selenium+unittest,爬虫电影网站-新乡seo|网站优化,网站建设_微信公众号:zeropython—昊天博客
python+selenium+unittest,爬虫电影网站-新乡seo|网站优化,网站建设_微信公众号:zeropython—昊天博客