Settings配置文件
常用的配置项:
BOT_NAME:项目名称。
ROBOTSTXT_OBEY:是否遵守爬虫协议。默认不遵守。
CONCURRENT_ITEMS:代表pipeline同时处理的item数的最大值。默认是100
CONCURRENT_REQUESTS:代表下载器并发请求的最大是,默认是16。
DEFAULT_REQUEST_HEADERS:默认请求头。可以将一些不会经常变化的请求头放在这个里面。
DEPTH_LIMIT:爬取网站最大允许的深度。默认为0,如果为0,则没有限制。
DOWNLOAD_DELAY:下载器在下载某个页面前等待多长的时间。该选项用来限制爬虫的爬取速度,减轻服务器压力。同时也支持小数。
DOWNLOAD_TIMEOUT:下载器下载的超时时间。
ITEM_PIPELINES:处理item的Pipeline,是一个字典,字典的key这个pipeline所在包的绝对路径,值是一个整数,优先级,值越小,优先级越高。
LOG_ENABLED:是否启用logging。默认是True。
LOG_ENCODING:log的编码。
LOG_LEVEL:log的级别。默认为DEBUG。可选的级别有CRITICAL、ERROR、WARNING、INFO、DEBUG。
USER_AGENT:请求头。默认为Scrapy/VERSION (+http://scrapy.org)。
PROXIES:代理设置。
COOKIES_ENABLED:是否开启cookie。一般不要开启,避免爬虫被追踪到。如果特殊情况也可以开启。