投稿    登录
  《Python3网络爬虫开发实战》赠书活动正在进行中!详情请戳赠书活动!欢迎参与!非常感谢!

标签:爬虫

Python

Python中异步协程的使用方法介绍

Python中异步协程的使用方法介绍
1. 前言 在执行一些 IO 密集型任务的时候,程序常常会因为等待 IO 而阻塞。比如在网络爬虫中,如果我们使用 requests 库来进行请求的话,如果网站响应速度过慢,程序一直在等待网站响应,最后导致其爬取效率是非常非常低的。 为了解决这类问题,本文就来探讨一下 Pytho...

崔庆才 2周前 (07-05) 1350浏览 36评论 9喜欢

Python

《Python3网络爬虫开发实战》来了!

《Python3网络爬虫开发实战》来了!
嗨~ 给大家重磅推荐一本新书!还未上市前就已经重印 3 次的 Python 爬虫书!那么它就是由静觅博客博主崔庆才所作的《Python3网络爬虫开发实战》!!! 书籍介绍 本书《Python3网络爬虫开发实战》全面介绍了利用 Python3 开发网络爬虫的知识,书中首先详细介绍...

崔庆才 3个月前 (05-04) 11848浏览 6评论 69喜欢

Python

爬虫代理哪家强?十大付费代理详细对比评测出炉!

爬虫代理哪家强?十大付费代理详细对比评测出炉!
前言 随着大数据时代的到来,爬虫已经成了获取数据的必不可少的方式,做过爬虫的想必都深有体会,爬取的时候莫名其妙 IP 就被网站封掉了,毕竟各大网站也不想自己的数据被轻易地爬走。 对于爬虫来说,为了解决封禁 IP 的问题,一个有效的方式就是使用代理,使用代理之后可以让爬虫伪装自己的...

崔庆才 6个月前 (02-03) 12906浏览 3评论 88喜欢

Python

[Python3网络爬虫开发实战] 7.4-使用Selenium爬取淘宝商品

[Python3网络爬虫开发实战] 7.4-使用Selenium爬取淘宝商品
在前一章中,我们已经成功尝试分析Ajax来抓取相关数据,但是并不是所有页面都可以通过分析Ajax来完成抓取。比如,淘宝,它的整个页面数据确实也是通过Ajax获取的,但是这些Ajax接口参数比较复杂,可能会包含加密密钥等,所以如果想自己构造Ajax参数,还是比较困难的。对于这种页面...

崔庆才 6个月前 (01-31) 13094浏览 2评论 37喜欢

Python

[Python3网络爬虫开发实战] 7.3-Splash负载均衡配置

[Python3网络爬虫开发实战] 7.3-Splash负载均衡配置
用Splash做页面抓取时,如果爬取的量非常大,任务非常多,用一个Splash服务来处理的话,未免压力太大了,此时可以考虑搭建一个负载均衡器来把压力分散到各个服务器上。这相当于多台机器多个服务共同参与任务的处理,可以减小单个Splash服务的压力。 1. 配置Splash服务 要...

崔庆才 6个月前 (01-31) 2832浏览 1评论 5喜欢

Python

[Python3网络爬虫开发实战] 7.2-Splash的使用

[Python3网络爬虫开发实战] 7.2-Splash的使用
Splash是一个JavaScript渲染服务,是一个带有HTTP API的轻量级浏览器,同时它对接了Python中的Twisted和QT库。利用它,我们同样可以实现动态渲染页面的抓取。 1. 功能介绍 利用Splash,我们可以实现如下功能: 异步方式处理多个网页渲染过程; ...

崔庆才 6个月前 (01-31) 6214浏览 2评论 9喜欢

Python

[Python3网络爬虫开发实战] 7.1-Selenium的使用

[Python3网络爬虫开发实战] 7.1-Selenium的使用
Selenium是一个自动化测试工具,利用它可以驱动浏览器执行特定的动作,如点击、下拉等操作,同时还可以获取浏览器当前呈现的页面的源代码,做到可见即可爬。对于一些JavaScript动态渲染的页面来说,此种抓取方式非常有效。本节中,就让我们来感受一下它的强大之处吧。 1. 准备工...

崔庆才 6个月前 (01-31) 10566浏览 0评论 41喜欢