如何利用scrapy 自带的imagespipeline 下载图片?
今天就来解决这个问题:
首先创建scrapy 项目

# 在 douban文件夹下创建一个 douban_movie_image项目

看项目的具体文件夹:

首先先运行一下 项目:

显示了好多东东
【Python爬虫实战】scrapy 利用自带的 imagespipeline下载图片-新乡seo|网站优化,网站建设_微信公众号:zeropython—昊天博客

看着心烦?设置不让他显示了:

打开settings.py,添加如下代码:

"""
Logging
Scrapy提供了log功能。您可以通过 logging 模块使用。

Log levels
Scrapy提供5层logging级别:
CRITICAL - 严重错误(critical)
ERROR - 一般错误(regular errors)
WARNING - 警告信息(warning messages)
INFO - 一般信息(informational messages)
DEBUG - 调试信息(debugging messages)
默认情况下python的logging模块将日志打印到了标准输出中,且只显示了大于等于WARNING级别的日志,这说明默认的日志级别设置为WARNING(日志级别等级CRITICAL > ERROR > WARNING > INFO > DEBUG,默认的日志格式为DEBUG级别

如何设置log级别
您可以通过终端选项(command line option) --loglevel/-L 或 LOG_LEVEL 来设置log级别。

scrapy crawl tencent_crawl -L INFO

可以修改配置文件settings.py,添加

LOG_LEVEL='INFO'

"""

再次运行一下,啥都没有返回,是不是程序出问题了啊

修改一下:movie.py 的parse函数:

再次运行一下

再次在si

修改items.py

程序没问题怎么把抓取豆瓣的top 250 的电影封面下载下来?

首先修改下movie.py 中的MovieSpider

【Python爬虫实战】scrapy 利用自带的 imagespipeline下载图片-新乡seo|网站优化,网站建设_微信公众号:zeropython—昊天博客
根据

十行代码获取豆瓣电影数据

采集豆瓣豆瓣电影top 250 第一步:先进行分析 打开网址: https://movie.douban.com/top…


修改一下类方法parse

注意items['img_url'] = item.css('.pic img::attr(src)').extract()
其中为啥要用 .extract(),有人会有疑问了
因为从源码中得知:

到此项目完成的差不多了,让我们看看效果吧:

【Python爬虫实战】scrapy 利用自带的 imagespipeline下载图片-新乡seo|网站优化,网站建设_微信公众号:zeropython—昊天博客
【Python爬虫实战】scrapy 利用自带的 imagespipeline下载图片-新乡seo|网站优化,网站建设_微信公众号:zeropython—昊天博客