入门级爬虫。使用Spider。
Spider
数据保存到json文件中。使用CrawlSpider。
CrawlSpider
发送post请求模拟登录。
汽车之家宝马5系爬虫。
BOSS直聘有很高的反爬虫机制,只要用同一个ip访问多个职位列表页,就会被封掉ip。采用代理ip的方式可解决问题。
数据保存到mysql数据库中。将selenium+chromedriver集成到scrapy。