0%

小白进阶之Scrapy第五篇（Scrapy-Splash配合CrawlSpider；瞎几把整的）

作者哎哟卧槽发表于 2017-07-12 分类于 Python 阅读次数：本文字数： 3.4k 阅读时长 ≈ 3 分钟

估摸着各位小伙伴儿被想使用 CrawlSpider 的 Rule 来抓取 JS，相当受折磨； CrawlSpider Rule 总是不能和 Splash 结合。废话不多说，手疼····

方法 1：

写一个自定义的函数，使用 Rule 中的 process_request 参数；来替换掉 Rule 本身 Request 的逻辑。参考官方文档： 1、将请求更换为 SplashRequest 请求： 2、每次请求将本次请求的 URL 使用 Meta 参数传递下去； 3、重写 _requests_to_follow 方法：替换响应 Response 的 URL 为我们传递的 URL（否则会格式为 Splash 的地址）就像下面这样

class MySpider(CrawlSpider):

    name = 'innda'

    def start_requests(self):
        yield SplashRequest(url, dont_process_response=True, args={'wait': 0.5}, meta={'real_url': url})

    rules = (
        Rule(LinkExtractor(allow=('node_\d+\.htm',)), process_request='splash_request', follow=True),
        Rule(LinkExtractor(allow=('content_\d+\.htm',)), callback="one_parse")
    )

    def splash_request(self, request):
        """
        :param request: Request对象（是一个字典；怎么取值就不说了吧！！）
        :return: SplashRequest的请求
        """
        # dont_process_response=True 参数表示不更改响应对象类型（默认为：HTMLResponse；更改后为：SplashTextResponse）
        # args={'wait': 0.5} 表示传递等待参数0.5（Splash会渲染0.5s的时间）
        # meta 传递请求的当前请求的URL
        return SplashRequest(url=request.url, dont_process_response=True, args={'wait': 0.5}, meta={'real_url': request.url})

    def _requests_to_follow(self, response):
        """重写的函数哈！这个函数是Rule的一个方法
        :param response: 这货是啥看名字都知道了吧（这货也是个字典，然后你懂的ｄ(･∀･*)♪ﾟ）
        :return: 追踪的Request
        """
        if not isinstance(response, HtmlResponse):
            return
        seen = set()
        # 将Response的URL更改为我们传递下来的URL
        # 需要注意哈！ 不能直接直接改！只能通过Response.replace这个魔术方法来改！（当然你改无所谓啦！反正会用报错来报复你 (`皿´) ）并且！！！
        # 敲黑板！！！！划重点！！！！！注意了！！！ 这货只能赋给一个新的对象（你说变量也行，怎么说都行！(*ﾟ∀ﾟ)=3）
        newresponse = response.replace(url=response.meta.get('real_url'))
        for n, rule in enumerate(self._rules):
            # 我要长一点不然有人看不见------------------------------------newresponse 看见没！别忘了改！！！
            links = [lnk for lnk in rule.link_extractor.extract_links(newresponse)
                     if lnk not in seen]
            if links and rule.process_links:
                links = rule.process_links(links)
            for link in links:
                seen.add(link)
                r = self._build_request(n, link)
                yield rule.process_request(r)

    def one_parse(self, response):
        print(response.url)

方法 2:

这就很简单啦！干掉类型检查就是了(/≧▽≦)/ 就像这样：

class MySpider(CrawlSpider):

    name = 'innda'

    def start_requests(self):
        yield SplashRequest(url, args={'wait': 0.5})

    rules = (
        Rule(LinkExtractor(allow=('node_\d+\.htm',)), process_request='splash_request', follow=True),
        Rule(LinkExtractor(allow=('content_\d+\.htm',)), callback="one_parse")
    )

    def splash_request(self, request):
        """
        :param request: Request对象（是一个字典；怎么取值就不说了吧！！）
        :return: SplashRequest的请求
        """
        # dont_process_response=True 参数表示不更改响应对象类型（默认为：HTMLResponse；更改后为：SplashTextResponse）
        # args={'wait': 0.5} 表示传递等待参数0.5（Splash会渲染0.5s的时间）
        # meta 传递请求的当前请求的URL
        return SplashRequest(url=request.url, args={'wait': 0.5})

    def _requests_to_follow(self, response):
        """重写的函数哈！这个函数是Rule的一个方法
        :param response: 这货是啥看名字都知道了吧（这货也是个字典，然后你懂的ｄ(･∀･*)♪ﾟ）
        :return: 追踪的Request
        """
        # *************请注意我就是被注释注释掉的类型检查o(TωT)o 
        # if not isinstance(response, HtmlResponse):
        #     return
        # ************************************************
        seen = set()
        # 将Response的URL更改为我们传递下来的URL
        # 需要注意哈！ 不能直接直接改！只能通过Response.replace这个魔术方法来改！并且！！！
        # 敲黑板！！！！划重点！！！！！注意了！！！ 这货只能赋给一个新的对象（你说变量也行，怎么说都行！(*ﾟ∀ﾟ)=3）
        # newresponse = response.replace(url=response.meta.get('real_url'))
        for n, rule in enumerate(self._rules):
            # 我要长一点不然有人看不见------------------------------------newresponse 看见没！别忘了改！！！
            links = [lnk for lnk in rule.link_extractor.extract_links(response)
                     if lnk not in seen]
            if links and rule.process_links:
                links = rule.process_links(links)
            for link in links:
                seen.add(link)
                r = self._build_request(n, link)
                yield rule.process_request(r)

以上完毕@_@!!