selenium是自动化测试中常用的python库,直接控制浏览器来进行网页访问,与火狐浏览器的iMacros类似,但功能更多,跟python其他库结合能完成很多iMacros单独实现不了的功能。

常用功能如下:

1、切换ip点击百度关键词排名、竞价关键词
2、采集需要触发js或加密的网页,如百度文库,页面上的文字源码中根本不可见,可以用selenium来copy前端页面上的内容;如百度指数,所有数据加密,可以把对网页显示指数的部分截图到本地,在ORC识别
示例:

【工具】phantomjs + seleinum采集百度文库

关于如何采集百度文库的讨论详见:http://www.5118.com/discuss/topic/48
反正百度文库为了防采集已经做到了令人发指的程度,模拟spider是没有格式的,正常访问html是不包含内容的,直接请求json只包含元素定位的信息。

所以像火车头浏览器、python爬虫无法获取内容,只能用phantomjs模拟浏览器访问,再从浏览器解析过的html把相关部分的东西copy下来,但效率不高且占系统资源。

转自gogo闯