投稿    登录
  《Python3网络爬虫开发实战》赠书活动正在进行中!详情请戳赠书活动!欢迎参与!非常感谢!

标签:爬虫

Python

[Python3网络爬虫开发实战] 3.2.1-基本用法

[Python3网络爬虫开发实战] 3.2.1-基本用法
1. 准备工作 在开始之前,请确保已经正确安装好了requests库。如果没有安装,可以参考1.2.1节安装。 2. 实例引入 urllib库中的urlopen()方法实际上是以GET方式请求网页,而requests中相应的方法就是get()方法,是不是感觉表达更明确一些?下面通...

崔庆才 1年前 (2018-01-27) 19281浏览 4评论 43喜欢

Python

[Python3网络爬虫开发实战] 3.2-使用requests

[Python3网络爬虫开发实战] 3.2-使用requests
上一节中,我们了解了urllib的基本用法,但是其中确实有不方便的地方,比如处理网页验证和Cookies时,需要写Opener和Handler来处理。为了更加方便地实现这些操作,就有了更为强大的库requests,有了它,Cookies、登录验证、代理设置等操作都不是事儿。 接下...

崔庆才 1年前 (2018-01-27) 14001浏览 0评论 46喜欢

Python

[Python3网络爬虫开发实战] 3.1.2-处理异常

[Python3网络爬虫开发实战] 3.1.2-处理异常
前一节我们了解了请求的发送过程,但是在网络不好的情况下,如果出现了异常,该怎么办呢?这时如果不处理这些异常,程序很可能因报错而终止运行,所以异常处理还是十分有必要的。 urllib的error模块定义了由request模块产生的异常。如果出现了问题,request模块便会抛出er...

崔庆才 1年前 (2018-01-27) 11349浏览 110评论 26喜欢

Python

[Python3网络爬虫开发实战] 3.1.1-发送请求

[Python3网络爬虫开发实战] 3.1.1-发送请求
使用urllib的request模块,我们可以方便地实现请求的发送并得到响应,本节就来看下它的具体用法。 1. urlopen() urllib.request模块提供了最基本的构造HTTP请求的方法,利用它可以模拟浏览器的一个请求发起过程,同时它还带有处理授权验证(authen...

崔庆才 1年前 (2018-01-27) 23723浏览 1评论 41喜欢

Python

[Python3网络爬虫开发实战] 3-基本库的使用

[Python3网络爬虫开发实战] 3-基本库的使用
学习爬虫,最初的操作便是模拟浏览器向服务器发出请求,那么我们需要从哪个地方做起呢?请求需要我们自己来构造吗?需要关心请求这个数据结构的实现吗?需要了解HTTP、TCP、IP层的网络传输通信吗?需要知道服务器的响应和应答原理吗? 可能你不知道无从下手,不过不用担心,Python的强...

崔庆才 1年前 (2018-01-27) 8703浏览 1评论 12喜欢

Python

[Python3网络爬虫开发实战] 2.5-代理的基本原理

[Python3网络爬虫开发实战] 2.5-代理的基本原理
我们在做爬虫的过程中经常会遇到这样的情况,最初爬虫正常运行,正常抓取数据,一切看起来都是那么美好,然而一杯茶的功夫可能就会出现错误,比如403 Forbidden,这时候打开网页一看,可能会看到“您的IP访问频率太高”这样的提示。出现这种现象的原因是网站采取了一些反爬虫措施。比如...

崔庆才 1年前 (2018-01-26) 10532浏览 1评论 33喜欢

Python

[Python3网络爬虫开发实战] 2.4-会话和Cookies

[Python3网络爬虫开发实战] 2.4-会话和Cookies
在浏览网站的过程中,我们经常会遇到需要登录的情况,有些页面只有登录之后才可以访问,而且登录之后可以连续访问很多次网站,但是有时候过一段时间就需要重新登录。还有一些网站,在打开浏览器时就自动登录了,而且很长时间都不会失效,这种情况又是为什么?其实这里面涉及会话和Cookies的相关...

崔庆才 1年前 (2018-01-26) 12788浏览 1评论 35喜欢