Settings配置文件
常用的配置项:
- BOT_NAME:项目名称。
- ROBOTSTXT_OBEY:是否遵守爬虫协议。默认不遵守。
- CONCURRENT_ITEMS:代表- pipeline同时处理的- item数的最大值。默认是100
- CONCURRENT_REQUESTS:代表下载器并发请求的最大是,默认是16。
- DEFAULT_REQUEST_HEADERS:默认请求头。可以将一些不会经常变化的请求头放在这个里面。
- DEPTH_LIMIT:爬取网站最大允许的深度。默认为0,如果为0,则没有限制。
- DOWNLOAD_DELAY:下载器在下载某个页面前等待多长的时间。该选项用来限制爬虫的爬取速度,减轻服务器压力。同时也支持小数。
- DOWNLOAD_TIMEOUT:下载器下载的超时时间。
- ITEM_PIPELINES:处理- item的- Pipeline,是一个字典,字典的key这个pipeline所在包的绝对路径,值是一个整数,优先级,值越小,优先级越高。
- LOG_ENABLED:是否启用logging。默认是True。
- LOG_ENCODING:log的编码。
- LOG_LEVEL:log的级别。默认为- DEBUG。可选的级别有- CRITICAL、- ERROR、- WARNING、- INFO、- DEBUG。
- USER_AGENT:请求头。默认为- Scrapy/VERSION (+http://scrapy.org)。
- PROXIES:代理设置。
- COOKIES_ENABLED:是否开启cookie。一般不要开启,避免爬虫被追踪到。如果特殊情况也可以开启。