投稿    登录
  《Python3网络爬虫开发实战》赠书活动正在进行中!详情请戳赠书活动!欢迎参与!非常感谢!

2018年1月月的内容

Python

[Python3网络爬虫开发实战] 7.4-使用Selenium爬取淘宝商品

[Python3网络爬虫开发实战] 7.4-使用Selenium爬取淘宝商品
在前一章中,我们已经成功尝试分析Ajax来抓取相关数据,但是并不是所有页面都可以通过分析Ajax来完成抓取。比如,淘宝,它的整个页面数据确实也是通过Ajax获取的,但是这些Ajax接口参数比较复杂,可能会包含加密密钥等,所以如果想自己构造Ajax参数,还是比较困难的。对于这种页面...

崔庆才 8个月前 (01-31) 18927浏览 6评论 52喜欢

Python

[Python3网络爬虫开发实战] 7.3-Splash负载均衡配置

[Python3网络爬虫开发实战] 7.3-Splash负载均衡配置
用Splash做页面抓取时,如果爬取的量非常大,任务非常多,用一个Splash服务来处理的话,未免压力太大了,此时可以考虑搭建一个负载均衡器来把压力分散到各个服务器上。这相当于多台机器多个服务共同参与任务的处理,可以减小单个Splash服务的压力。 1. 配置Splash服务 要...

崔庆才 8个月前 (01-31) 3551浏览 2评论 5喜欢

Python

[Python3网络爬虫开发实战] 7.2-Splash的使用

[Python3网络爬虫开发实战] 7.2-Splash的使用
Splash是一个JavaScript渲染服务,是一个带有HTTP API的轻量级浏览器,同时它对接了Python中的Twisted和QT库。利用它,我们同样可以实现动态渲染页面的抓取。 1. 功能介绍 利用Splash,我们可以实现如下功能: 异步方式处理多个网页渲染过程; ...

崔庆才 8个月前 (01-31) 8258浏览 3评论 10喜欢

Python

[Python3网络爬虫开发实战] 7.1-Selenium的使用

[Python3网络爬虫开发实战] 7.1-Selenium的使用
Selenium是一个自动化测试工具,利用它可以驱动浏览器执行特定的动作,如点击、下拉等操作,同时还可以获取浏览器当前呈现的页面的源代码,做到可见即可爬。对于一些JavaScript动态渲染的页面来说,此种抓取方式非常有效。本节中,就让我们来感受一下它的强大之处吧。 1. 准备工...

崔庆才 8个月前 (01-31) 14092浏览 0评论 48喜欢

Python

[Python3网络爬虫开发实战] 6.4-分析Ajax爬取今日头条街拍美图

[Python3网络爬虫开发实战] 6.4-分析Ajax爬取今日头条街拍美图
本节中,我们以今日头条为例来尝试通过分析Ajax请求来抓取网页数据的方法。这次要抓取的目标是今日头条的街拍美图,抓取完成之后,将每组图片分文件夹下载到本地并保存下来。 1. 准备工作 在本节开始之前,请确保已经安装好requests库。如果没有安装,可以参考第1章。 2. 抓取分...

崔庆才 8个月前 (01-30) 12021浏览 9评论 33喜欢

Python

[Python3网络爬虫开发实战] 6.3-Ajax结果提取

[Python3网络爬虫开发实战] 6.3-Ajax结果提取
这里仍然以微博为例,接下来用Python来模拟这些Ajax请求,把我发过的微博爬取下来。 1. 分析请求 打开Ajax的XHR过滤器,然后一直滑动页面以加载新的微博内容。可以看到,会不断有Ajax请求发出。 选定其中一个请求,分析它的参数信息。点击该请求,进入详情页面,如图6-1...

崔庆才 8个月前 (01-30) 8049浏览 6评论 19喜欢

Python

[Python3网络爬虫开发实战] 6.2-Ajax分析方法

[Python3网络爬虫开发实战] 6.2-Ajax分析方法
这里还以前面的微博为例,我们知道拖动刷新的内容由Ajax加载,而且页面的URL没有变化,那么应该到哪里去查看这些Ajax请求呢? 1. 查看请求 这里还需要借助浏览器的开发者工具,下面以Chrome浏览器为例来介绍。 首先,用Chrome浏览器打开微博的链接https://m.w...

崔庆才 8个月前 (01-30) 7780浏览 4评论 24喜欢

Python

[Python3网络爬虫开发实战] 6.1-什么是Ajax

[Python3网络爬虫开发实战] 6.1-什么是Ajax
Ajax,全称为Asynchronous JavaScript and XML,即异步的JavaScript和XML。它不是一门编程语言,而是利用JavaScript在保证页面不被刷新、页面链接不改变的情况下与服务器交换数据并更新部分网页的技术。 对于传统的网页,如果想更新其内容...

崔庆才 8个月前 (01-30) 6325浏览 0评论 20喜欢

Python

[Python3网络爬虫开发实战] 6-Ajax数据爬取

[Python3网络爬虫开发实战] 6-Ajax数据爬取
有时候我们在用requests抓取页面的时候,得到的结果可能和在浏览器中看到的不一样:在浏览器中可以看到正常显示的页面数据,但是使用requests得到的结果并没有。这是因为requests获取的都是原始的HTML文档,而浏览器中的页面则是经过JavaScript处理数据后生成的...

崔庆才 8个月前 (01-30) 6127浏览 0评论 33喜欢