采集豆瓣豆瓣电影top 250

第一步:先进行分析
打开网址:
https://movie.douban.com/top250?start=0&filter=

鼠标右键点击审查元素:

十行代码获取豆瓣电影数据-新乡seo|网站优化,网站建设_微信公众号:zeropython—昊天博客
十行代码获取豆瓣电影数据-新乡seo|网站优化,网站建设_微信公众号:zeropython—昊天博客

要获取的就是排名,缩略图, 电影名称 ,外加一个评分

打开Pycharm 的ide 新建一个文件:

导入用到库名称

requests是用来网站请求,pyquery用来作为选择器。

请求网址源码:

requests获取到一个页面的源代码,然后需要用pq进行选择器选择pq(html)('.item').items(),进行迭代,

十行代码获取豆瓣电影数据-新乡seo|网站优化,网站建设_微信公众号:zeropython—昊天博客

再次对item选择出 title num star img

十行代码获取豆瓣电影数据-新乡seo|网站优化,网站建设_微信公众号:zeropython—昊天博客

最后一步,现在是请求的一个页面,咱们要请求的所有的页面:

完整的代码是:

十行代码获取豆瓣电影数据-新乡seo|网站优化,网站建设_微信公众号:zeropython—昊天博客