大家好,我是崔庆才,非常高兴能在此处与您相见,无论您对爬虫有所涉猎还是初学爬虫,我希望我撰写的本 Python 爬虫系列教程能对您有所帮助。
要学爬虫,首推的就是 Python 语言,简单快速易上手,且 Python 语言的爬虫生态极其丰富。
我个人于 2015 年研究 Python 爬虫技术,并于 2018 年出版了个人第一版爬虫书《Python3 网络爬虫开发实战》,出版至今,此本书一直处于市面上所有爬虫书的销冠位置,销量 10w 册,豆瓣评分 9.0。
Python 爬虫技术的基本内容包括网页基础分析、requests 请求、XPath 和正则解析、Ajax 分析、Selenium 模拟浏览器爬取、Scrapy 等知识点,但技术不是一成不变的,随着近几年时代的发展,一些新兴爬虫技术如异步爬虫、JavaScript 逆向、AST 技术、安卓逆向、Hook、智能解析、WebAssembly、大规模分布式、Docker、Kubernetes 等技术不断涌现,而现在网上的爬虫文章也存在着极大问题,一个是内容泛滥不堪、同质化严重,另一个是几乎没有几篇博文能紧跟前沿技术,多数还停留在几年前的水平,而且很多爬虫教程所用案例已经非常老旧而且多数也无法运行,这极大地打击了初学者的自信心。
因此,2022 年了,有一套内容全面的、紧跟前沿技术的、案例稳定运行的爬虫教程可谓是非常难得。
是的,所以在 2021 年底,我又出版了《Python3 网络爬虫开发实战(第二版)》,对旧的爬虫技术内容进行了全面更新,搭建了全新的案例平台进行全面讲解,
目前截止 2022 年,可以将爬虫基本技术进行系统讲解,同时将最新前沿爬虫技术如异步、JavaScript 逆向、AST、安卓逆向、Hook、智能解析、群控技术、WebAssembly、大规模分布式、Docker、Kubernetes 等,市面上目前就这一套教程了,当然书的话也仅有《Python3 网络爬虫开发实战(第二版)》可以做到。
本教程内容多数来自于《Python3 网络爬虫开发实战(第二版)》,本教程对书中内容进行了精简和梳理,尽量覆盖到最新的知识点,当然更全面的内容可以购买《Python3 网络爬虫开发实战(第二版)》一书了解更多。
以下为 Python3 网络爬虫学习教程内容:
爬虫基础入门
页面解析和数据存储
- 网页解析利器 XPath 初体验
- 新兴网页解析利器 parsel
- 简易的 TXT 纯文本文件存储
- 方便灵活的 JSON 文本文件存储
- 高效实用的 MongoDB 文档存储
- 关系型数据库 MySQL 存储
- 当爬虫遇见 RabbitMQ 消息队列
- 便于高效检索的 Elasticsearch 存储