投稿    登录
欢迎来访~

标签:爬虫

Python

[Python3网络爬虫开发实战] 3.2-使用requests

[Python3网络爬虫开发实战] 3.2-使用requests
上一节中,我们了解了urllib的基本用法,但是其中确实有不方便的地方,比如处理网页验证和Cookies时,需要写Opener和Handler来处理。为了更加方便地实现这些操作,就有了更为强大的库requests,有了它,Cookies、登录验证、代理设置等操作都不是事儿。 接下...

崔庆才 1年前 (2018-01-27) 19084浏览 0评论 57喜欢

Python

[Python3网络爬虫开发实战] 3.1.2-处理异常

[Python3网络爬虫开发实战] 3.1.2-处理异常
前一节我们了解了请求的发送过程,但是在网络不好的情况下,如果出现了异常,该怎么办呢?这时如果不处理这些异常,程序很可能因报错而终止运行,所以异常处理还是十分有必要的。 urllib的error模块定义了由request模块产生的异常。如果出现了问题,request模块便会抛出er...

崔庆才 1年前 (2018-01-27) 15657浏览 110评论 30喜欢

Python

[Python3网络爬虫开发实战] 3.1.1-发送请求

[Python3网络爬虫开发实战] 3.1.1-发送请求
使用urllib的request模块,我们可以方便地实现请求的发送并得到响应,本节就来看下它的具体用法。 1. urlopen() urllib.request模块提供了最基本的构造HTTP请求的方法,利用它可以模拟浏览器的一个请求发起过程,同时它还带有处理授权验证(authen...

崔庆才 1年前 (2018-01-27) 33289浏览 2评论 48喜欢

Python

[Python3网络爬虫开发实战] 3-基本库的使用

[Python3网络爬虫开发实战] 3-基本库的使用
学习爬虫,最初的操作便是模拟浏览器向服务器发出请求,那么我们需要从哪个地方做起呢?请求需要我们自己来构造吗?需要关心请求这个数据结构的实现吗?需要了解HTTP、TCP、IP层的网络传输通信吗?需要知道服务器的响应和应答原理吗? 可能你不知道无从下手,不过不用担心,Python的强...

崔庆才 1年前 (2018-01-27) 12027浏览 1评论 14喜欢

Python

[Python3网络爬虫开发实战] 2.5-代理的基本原理

[Python3网络爬虫开发实战] 2.5-代理的基本原理
我们在做爬虫的过程中经常会遇到这样的情况,最初爬虫正常运行,正常抓取数据,一切看起来都是那么美好,然而一杯茶的功夫可能就会出现错误,比如403 Forbidden,这时候打开网页一看,可能会看到“您的IP访问频率太高”这样的提示。出现这种现象的原因是网站采取了一些反爬虫措施。比如...

崔庆才 1年前 (2018-01-26) 14606浏览 1评论 38喜欢

Python

[Python3网络爬虫开发实战] 2.4-会话和Cookies

[Python3网络爬虫开发实战] 2.4-会话和Cookies
在浏览网站的过程中,我们经常会遇到需要登录的情况,有些页面只有登录之后才可以访问,而且登录之后可以连续访问很多次网站,但是有时候过一段时间就需要重新登录。还有一些网站,在打开浏览器时就自动登录了,而且很长时间都不会失效,这种情况又是为什么?其实这里面涉及会话和Cookies的相关...

崔庆才 1年前 (2018-01-26) 16920浏览 1评论 41喜欢

Python

[Python3网络爬虫开发实战] 2.3-爬虫的基本原理

[Python3网络爬虫开发实战] 2.3-爬虫的基本原理
我们可以把互联网比作一张大网,而爬虫(即网络爬虫)便是在网上爬行的蜘蛛。把网的节点比作一个个网页,爬虫爬到这就相当于访问了该页面,获取了其信息。可以把节点间的连线比作网页与网页之间的链接关系,这样蜘蛛通过一个节点后,可以顺着节点连线继续爬行到达下一个节点,即通过一个网页继续获取后...

崔庆才 1年前 (2018-01-26) 21370浏览 1评论 67喜欢