为什么使用CrawlSpider类?
回顾上一篇文章,我们大多时间都是在寻找下一页的url地址或者是内容的url地址上面,我们的大体思路是这样的:
- 从response中提取所有的a标签对应的url地址
- 自动的构造自己requests请求,发送给引擎 其实我们可以使用CrawlSpider类,让满足某个条件的url地址,我们才发送给引擎,同时能够指定callback函数。
CrawlSpider的使用
使用scrapy genspider –t crawl [爬虫名] [all_domain]
就可以创建一个CrawlSpider模版
CrawlSpider继承于Spider类,除了继承过来的属性外(name、allow_domains),还提供了新的属性和方法:
Rules
CrawlSpider使用rules来决定爬虫的爬取规则,并将匹配后的url请求提交给引擎。所以在正常情况下,CrawlSpider不需要单独手动返回请求了。
在Rules中包含一个或多个Rule对象,每个Rule对爬取网站的动作定义了某种特定操作,比如提取当前相应内容里的特定链接,是否对提取的链接跟进爬取,对提交的请求设置回调函数等。
如果多个Rule匹配了相同的链接,则根据规则在本集合中被定义的顺序,第一个会被使用。
1 | class scrapy.spiders.Rule( |
其中:
link_extractor
:是一个Link Extractor对象,用于定义需要提取的链接。callback
: 从Link Extractor中每获取到链接时,参数所指定的值作为回调函数,该回调函数接受一个response作为其第一个参数。注意:当编写爬虫规则时,避免使用parse作为回调函数。由于CrawlSpider使用parse方法来实现其逻辑,如果覆盖了 parse方法,crawl spider将会运行失败。
follow
:是一个布尔(boolean)值,指定了根据该规则从response提取的链接是否需要跟进。 如果callback为None,follow 默认设置为True ,否则默认为False。process_links
:指定该spider中哪个的函数将会被调用,从link_extractor中获取到链接列表时将会调用该函数。该方法主要用来过滤
。process_request
:指定该spider中哪个的函数将会被调用, 该规则提取到每个request时都会调用该函数。(用来过滤request)
LinkExtractors
Link Extractors 的目的很简单:提取链接。
1 | class scrapy.linkextractors.LinkExtractor( |
其中:
allow
:满足括号中正则表达式
的URL会被提取,如果为空,则全部匹配。deny
:满足括号中“正则表达式”的URL一定不提取(优先级高于allow)。allow_domains
:会被提取的链接的domains。deny_domains
:一定不会被提取链接的domains。restrict_xpaths
:使用xpath表达式,和allow共同作用过滤链接。
CrawlSpider类-实战腾讯招聘
上一篇文章我们用scrapy spider类实现了腾讯招聘的爬取,这次就再用CrawlSpider再实现一次。
创建爬虫
scrapy genspider –t crawl tthr tencent.com
分析页面
这里我们只要找出详情页的链接规律和翻页的链接规律,所以可以找到以下链接:
1 | # 详情页规律 |
到这里我们就可以写出以下rule:
1 | # 详情页链接规律 |
注意:
在查找详情页Rule时follow=False
,我们无需在详情页再查找详情页的地址,而在列表Rule时follow=False
,意味着不断在列表页中查找下一页地址。
编写代码
1 | # -*- coding: utf-8 -*- |