系列文章总目录:【2022 年】Python3 爬虫学习教程,本教程内容多数来自于《Python3 网络爬虫开发实战(第二版)》一书,目前截止 2022 年,可以将爬虫基本技术进行系统讲解,同时将最新前沿爬虫技术如异步、JavaScript 逆向、AST、安卓逆向、Hook、智能解析、群控技术、WebAssembly、大规模分布式、Docker、Kubernetes 等,市面上目前就仅有《Python3 网络爬虫开发实战(第二版)》一书了,点击了解详情。
在上一节中我们已经学习了 Ajax 的基本原理和分析方法,这一节我们来结合一个实际的案例来看一下 Ajax 分析和爬取页面的具体实现。
1. 准备工作
在本节开始之前,我们需要做好如下准备工作:
- 安装好 Python 3(最低为 3.6 版本),并成功运行 Python 3 程序。
- 了解 Python HTTP 请求库 requests 的基本用法。
- 了解 Ajax 基础知识和分析 Ajax 的基本方法。
以上内容在前面的章节中均有讲解,如尚未准备好,建议先熟悉一下这些内容。
2. 爬取目标
本节我们以一个示例网站来试验一下 Ajax 的爬取,其链接为:https://spa1.scrape.center/,该示例网站的数据请求是通过 Ajax 完成的,页面的内容是通过 JavaScript 渲染出来的,页面如图所示:
可能大家看着这个页面似曾相识,心想这不就是上一个案例的网站吗?但其实不是。这个网站的后台实现逻辑和数据加载方式完全不同。只不过最后呈现的样式是一样的。
这个网站同样支持翻页,可以点击最下方的页码来切换到下一页,如图所示:
点击每一个电影的链接进入详情页,页面结构也是完全一样的,如图所示:
我们需要爬取的数据也是和原来相同的,包括电影的名称、封面、类别、上映日期、评分、剧情简介等信息。
本节中我们需要完成的目标如下。
- 分析页面数据的加载逻辑。
- 用 requests 实现 Ajax 数据的爬取。
- 将每部电影的数据保存成一个 JSON 数据文件。
由于本节主要讲解 Ajax,所以对于数据存储和加速部分就不再展开详细实现,主要是讲解 Ajax 的分析和爬取实现。
好,我们现在就开始吧。
3. 初步探索
首先,我们先尝试用之前的 requests 来直接提取页面,看看会得到怎样的结果。用最简单的代码实现一下 requests 获取首页源码的过程,代码如下:
1 |
import requests |
运行结果如下:
1 |
<html lang=en><head><meta charset=utf-8><meta http-equiv=X-UA-Compatible content="IE=edge"><meta name=viewport content="width=device-width,initial-scale=1"><link rel=icon href=/favicon.ico><title>Scrape | Movie</title><link href=/css/chunk-700f70e1.1126d090.css rel=prefetch><link href=/css/chunk-d1db5eda.0ff76b36.css rel=prefetch><link href=/js/chunk-700f70e1.0548e2b4.js rel=prefetch><link href=/js/chunk-d1db5eda.b564504d.js rel=prefetch><link href=/css/app.ea9d802a.css rel=preload as=style><link href=/js/app.1435ecd5.js rel=preload as=script><link href=/js/chunk-vendors.77daf991.js rel=preload as=script><link href=/css/app.ea9d802a.css rel=stylesheet></head><body><noscript><strong>We're sorry but portal doesn't work properly without JavaScript enabled. Please enable it to continue.</strong></noscript><div id=app></div><script src=/js/chunk-vendors.77daf991.js></script><script src=/js/app.1435ecd5.js></script></body></html> |
可以看到,爬取结果就只有这么一点 HTML 内容,而我们在浏览器中打开这个页面,却能看到如图所示的结果:
在 HTML 中,我们只能看到在源码中引用了一些 JavaScript 和 CSS 文件,并没有观察到有任何电影数据信息。
如果遇到这样的情况,这说明我们现在看到的整个页面便是 JavaScript 渲染得到的,浏览器执行了 HTML 中所引用的 JavaScript 文件,JavaScript 通过调用一些数据加载和页面渲染方法,才最终呈现了图中所示的结果。
在一般情况下,这些数据都是通过 Ajax 来加载的, JavaScript 在后台调用这些 Ajax 数据接口,得到数据之后,再把数据进行解析并渲染呈现出来,得到最终的页面。所以说,要想爬取这个页面,我们可以直接爬取 Ajax 接口获取数据就好了。
在上一节中,我们已经了解了 Ajax 分析的基本方法,下面我们就来分析一下 Ajax 接口的逻辑并实现数据爬取吧。
4. 爬取列表页
首先我们来分析一下列表页的 Ajax 接口逻辑,打开浏览器开发者工具,切换到 Network 面板,勾选上 Preserve Log 并切换到 XHR 选项卡,如图所示:
接着重新刷新页面,再点击第二页、第三页、第四页的按钮,这时候可以观察到页面上的数据发生了变化,同时开发者工具下方就监听到了几个 Ajax 请求,如图所示:
由于我们切换了 4 页,每次翻页也出现了对应的 Ajax 请求,我们可以点击查看其请求详情。观察其请求的 URL 和参数以及响应内容是怎样的,如图所示。
这里我们点开了最后个结果,观察到其 Ajax 接口请求的 URL 地址为:https://spa1.scrape.center/api/movie/?limit=10&offset=40,这里有两个参数,一个是 limit
,这里是 10;一个是 offset
,这里也是 40。
通过多个 Ajax 接口的参数,我们可以观察到这么一个规律:limit
一直为 10,这就正好对应着每页 10 条数据;offset
在依次变大,页面每加 1 页,offset
就加 10,这就代表着页面的数据偏移量,比如第二页的 offset
为 10 则代表着跳过 10 条数据,返回从 11 条数据开始的结果,再加上 limit
的限制,那就是第 11 条至第 20 条数据的结果。
接着我们再观察一下响应的数据,切换到 Preview 选项卡,结果如图所示:
可以看到,结果就是一些 JSON 数据,它有一个 results
字段,是一个列表,列表中每一个元素都是一个字典。观察一下字典的内容,这里我们正好可以看到有对应的电影数据的字段了,如 name
、alias
、cover
、categories
,对比下浏览器中的真实数据,各个内容完全一致,而且这个数据已经非常结构化了,完全就是我们想要爬取的数据,真的是得来全不费工夫。
这样的话,我们只需要把所有页面的 Ajax 接口构造出来,所有列表页的数据我们都可以轻松获取到了。
我们先定义一些准备工作,导入一些所需的库并定义一些配置,代码如下:
1 |
import requests |
这里我们引入了 requests 和 logging 库,并定义了 logging 的基本配置,接着我们定义了 INDEX_URL
,这里把 limit
和 offset
预留出来了变成了占位符,可以动态传入参数构造一个完整的列表页 URL。
下面我们来实现一下详情页的爬取。还是和原来一样,我们先定义一个通用的爬取方法,其代码如下:
1 |
def scrape_api(url): |
这里我们定义了一个 scrape_api
方法,和之前不同的是,这个方法专门用来处理 JSON 接口,最后的 response
调用的是 json
方法,它可以解析响应的内容并将其转化成 JSON 字符串。
接着在这个基础之上,我们定义一个爬取列表页的方法,其代码如下:
1 |
LIMIT = 10 |
这里我们定义了一个 scrape_index
方法,它接收一个参数 page
,该参数代表列表页的页码。
这里我们先构造了一个 url
,通过字符串的 format
方法,传入 limit
和 offset
的值。这里 limit
就直接使用了全局变量 LIMIT
的值;offset
则是动态计算的,就是页码数减一再乘以 limit
,比如第一页 offset
就是 0,第二页 offset
就是 10,以此类推。构造好了 url
之后,直接调用 scrape_api
方法并返回结果即可。
这样我们就完成了列表页的爬取,每次请求都会得到一页 10 部的电影数据。
由于这时爬取到的数据已经是 JSON 类型了,所以我们不用像之前那样去解析 HTML 代码来提取数据了,爬到的数据就是我们想要的结构化数据,因此解析这一步就可以直接省略啦。
到此为止,我们能成功爬取列表页并提取出电影列表信息了。
5. 爬取详情页
这时候我们已经可以拿到每一页的电影数据了,但是看看这些数据实际上还缺少了一些我们想要的信息,如剧情简介等信息,所以需要进一步进入到详情页来获取这些内容。
这时候点击任意一部电影,如《教父》,进入其详情页,这时可以发现页面的 URL 已经变成了 https://spa1.scrape.center/detail/40,页面也成功展示了详情页的信息,如图所示:
另外,我们也可以观察到在开发者工具中又出现了一个 Ajax 请求,其 URL 为 https://spa1.scrape.center/api/movie/40/,通过 Preview 选项卡也能看到 Ajax 请求对应响应的信息,如图 所示。
稍加观察就可以发现,Ajax 请求的 URL 后面有一个参数是可变的,这个参数就是电影的 id
,这里是 40,对应《教父》这部电影。
如果我们想要获取 id
为 50 的电影,只需要把 URL 最后的参数改成 50 即可,即 https://spa1.scrape.center/api/movie/50/,请求这个新的 URL 我们就能获取 id
为 50 的电影所对应的数据了。
同样,响应结果也是结构化的 JSON 数据,字段也非常规整,我们直接爬取即可。
现在分析好了详情页的数据提取逻辑,那么怎么和列表页关联起来呢?这个 id
哪里来呢?我们回过头来再看看列表页的接口返回数据,如图所示。
可以看到,列表页原本的返回数据就带了 id
这个字段,所以我们只需要拿列表页结果中的 id
来构造详情页的 Ajax 请求的 URL 就好了。
接着,我们就先定义一个详情页的爬取逻辑,代码如下:
1 |
DETAIL_URL = 'https://spa1.scrape.center/api/movie/{id}' |
这里我们定义了一个 scrape_detail
方法,它接收一个参数 id
。这里的实现也非常简单,先根据定义好的 DETAIL_URL
加 id
构造一个真实的详情页 Ajax 请求的 URL,然后直接调用 scrape_api
方法传入这个 url
即可。
接着,我们定义一个总的调用方法,将以上方法串联调用起来,代码如下:
1 |
TOTAL_PAGE = 10 |
这里我们定义了一个 main
方法,首先遍历获取了页码 page
,然后把 page
当参数传递给了 scrape_index
方法,得到列表页的数据。接着我们遍历每个列表页的每个结果,获取到每部电影的 id
,然后把 id
当作参数传递给 scrape_detail
方法来爬取每部电影的详情数据,并将其赋值为 detail_data
,输出即可。
运行结果如下:
1 |
2020-03-19 02:51:55,981 - INFO: scraping https://spa1.scrape.center/api/movie/?limit=10&offset=0... |
由于内容较多,这里省略了部分内容。
可以看到,其实整个爬取工作就已经完成了,这里会顺次爬取每一页列表页 Ajax 接口,然后去顺次爬取每部电影的详情页 Ajax 接口,打印出每部电影的 Ajax 接口响应数据,而且都是 JSON 格式。这样,所有电影的详情数据都会被我们爬取到啦。
6. 保存数据
好,成功提取到详情页信息之后,我们下一步就要把数据保存起来了。在前面我们学习了 MongoDB 的相关操作,接下来我们就把数据保存到 MongoDB 吧。
在这之前,请确保现在有一个可以正常连接和使用的 MongoDB 数据库,这里我就以本地 localhost 的 M 哦能够 DB 数据库为例来进行操作,其运行在 27017 端口上,无用户名和密码。
将数据导入 MongoDB 需要用到 PyMongo 这个库。接下来我们把它们引入一下,然后同时定义一下 MongoDB 的连接配置,实现如下:
1 |
MONGO_CONNECTION_STRING = 'mongodb://localhost:27017' |
在这里我们声明了几个变量,介绍如下:
- MONGO_CONNECTION_STRING:MongoDB 的连接字符串,里面定义了 MongoDB 的基本连接信息,如 host、port,还可以定义用户名密码等内容。
- MONGO_DB_NAME:MongoDB 数据库的名称。
- MONGO_COLLECTION_NAME:MongoDB 的集合名称。
这里我们用 MongoClient 声明了一个连接对象,然后依次声明了存储的数据库和集合。
接下来,我们再实现一个将数据保存到 MongoDB 的方法,实现如下:
1 |
def save_data(data): |
在这里我们声明了一个 save_data 方法,它接收一个 data 参数,也就是我们刚才提取的电影详情信息。在方法里面,我们调用了 update_one 方法,第一个参数是查询条件,即根据 name 进行查询;第二个参数就是 data 对象本身,就是所有的数据,这里我们用 $set
操作符表示更新操作;第三个参数很关键,这里实际上是 upsert 参数,如果把这个设置为 True,则可以做到存在即更新,不存在即插入的功能,更新会根据第一个参数设置的 name 字段,所以这样可以防止数据库中出现同名的电影数据。
注:实际上电影可能有同名,但该场景下的爬取数据没有同名情况,当然这里更重要的是实现 MongoDB 的去重操作。
好的,那么接下来 main 方法稍微改写一下就好了,改写如下:
1 |
def main(): |
这里就是加了 save_data 方法的调用,并加了一些日志信息。
重新运行,我们看下输出结果:
1 |
2020-03-19 02:51:06,323 - INFO: scraping https://spa1.scrape.center/api/movie/?limit=10&offset=0... |
由于输出内容较多,这里省略了部分内容。
我们可以看到这里我们成功爬取到了数据,并且提示了数据存储成功的信息,没有任何报错信息。
接下来我们使用 Robo 3T 连接 MongoDB 数据库看下爬取的结果,由于我使用的是本地的 MongoDB,所以在 Robo 3T 里面我直接输入 localhost 的连接信息即可,这里请替换成自己的 MongoDB 连接信息,如图所示:
连接之后我们便可以在 movies 这个数据库,movies 这个集合下看到我们刚才爬取的数据了,如图所示:
可以看到数据就是以 JSON 格式存储的,一条数据就对应一部电影的信息,各种嵌套信息也一目了然,同时第三列还有数据类型标识。
这样就证明我们的数据就成功存储到 MongoDB 里了。
7. 总结
本节中我们通过一个案例来体会了 Ajax 分析和爬取的基本流程,希望大家通过本节能够更加熟悉 Ajax 的分析和爬取实现。
另外,我们也观察到,由于 Ajax 接口大部分返回的是 JSON 数据,所以在一定程度上可以避免一些数据提取的工作,这也在一定程度上减轻了工作量。