Scrapy-Splash 是一个 Scrapy 中支持 JavaScript 渲染的工具,本节来介绍它的安装方式。
Scrapy-Splash 的安装分为两部分。一个是 Splash 服务的安装,具体是通过 Docker,安装之后,会启动一个 Splash 服务,我们可以通过它的接口来实现 JavaScript 页面的加载。另外一个是 Scrapy-Splash 的 Python 库的安装,安装之后即可在 Scrapy 中使用 Splash 服务。
1. 相关链接
- GitHub:https://github.com/scrapy-plugins/scrapy-splash
- PyPI:https://pypi.python.org/pypi/scrapy-splash
- 使用说明:https://github.com/scrapy-plugins/scrapy-splash#configuration
- Splash 官方文档:http://splash.readthedocs.io
2. 安装 Splash
Scrapy-Splash 会使用 Splash 的 HTTP API 进行页面渲染,所以我们需要安装 Splash 来提供渲染服务。这里通过 Docker 安装,在这之前请确保已经正确安装好了 Docker。
安装命令如下:
1 |
docker run -p 8050:8050 scrapinghub/splash |
安装完成之后,会有类似的输出结果:
1 |
2017-07-03 08:53:28+0000 [-] Log opened. |
这样就证明 Splash 已经在 8050 端口上运行了。这时我们打开http://localhost:8050,即可看到 Splash 的主页,如图 1-80 所示。
图 1-80 运行页面
当然,Splash 也可以直接安装在远程服务器上。我们在服务器上以守护态运行 Splash 即可,命令如下:
1 |
docker run -d -p 8050:8050 scrapinghub/splash |
这里多了\-d
参数,它代表将 Docker 容器以守护态运行,这样在中断远程服务器连接后,不会终止 Splash 服务的运行。
3. Scrapy-Splash 的安装
成功安装 Splash 之后,接下来再来安装其 Python 库,命令如下:
1 |
pip3 install scrapy-splash |
命令运行完毕后,就会成功安装好此库,后面会详细介绍它的用法。