投稿    登录
欢迎来访~

标签:爬虫

Python

[Python3网络爬虫开发实战] 3.3-正则表达式

[Python3网络爬虫开发实战] 3.3-正则表达式
本节中,我们看一下正则表达式的相关用法。正则表达式是处理字符串的强大工具,它有自己特定的语法结构,有了它,实现字符串的检索、替换、匹配验证都不在话下。 当然,对于爬虫来说,有了它,从HTML里提取想要的信息就非常方便了。 1. 实例引入 说了这么多,可能我们对它到底是个什么还是比...

崔庆才 2018-01-27 14:32 38720浏览 5评论 86喜欢

Python

[Python3网络爬虫开发实战] 3.2.2-高级用法

[Python3网络爬虫开发实战] 3.2.2-高级用法
在前一节中,我们了解了requests的基本用法,如基本的GET、POST请求以及Response对象。本节中,我们再来了解下requests的一些高级用法,如文件上传、cookie设置、代理设置等。 1. 文件上传 我们知道requests可以模拟提交一些数据。假如有的网站需要...

崔庆才 2018-01-27 14:26 26906浏览 3评论 50喜欢

Python

[Python3网络爬虫开发实战] 3.2.1-基本用法

[Python3网络爬虫开发实战] 3.2.1-基本用法
1. 准备工作 在开始之前,请确保已经正确安装好了requests库。如果没有安装,可以参考1.2.1节安装。 2. 实例引入 urllib库中的urlopen()方法实际上是以GET方式请求网页,而requests中相应的方法就是get()方法,是不是感觉表达更明确一些?下面通...

崔庆才 2018-01-27 14:14 33443浏览 6评论 60喜欢

Python

[Python3网络爬虫开发实战] 3.2-使用requests

[Python3网络爬虫开发实战] 3.2-使用requests
上一节中,我们了解了urllib的基本用法,但是其中确实有不方便的地方,比如处理网页验证和Cookies时,需要写Opener和Handler来处理。为了更加方便地实现这些操作,就有了更为强大的库requests,有了它,Cookies、登录验证、代理设置等操作都不是事儿。 接下...

崔庆才 2018-01-27 14:12 23747浏览 0评论 65喜欢

Python

[Python3网络爬虫开发实战] 3.1.2-处理异常

[Python3网络爬虫开发实战] 3.1.2-处理异常
前一节我们了解了请求的发送过程,但是在网络不好的情况下,如果出现了异常,该怎么办呢?这时如果不处理这些异常,程序很可能因报错而终止运行,所以异常处理还是十分有必要的。 urllib的error模块定义了由request模块产生的异常。如果出现了问题,request模块便会抛出er...

崔庆才 2018-01-27 14:00 19610浏览 110评论 36喜欢

Python

[Python3网络爬虫开发实战] 3.1.1-发送请求

[Python3网络爬虫开发实战] 3.1.1-发送请求
使用urllib的request模块,我们可以方便地实现请求的发送并得到响应,本节就来看下它的具体用法。 1. urlopen() urllib.request模块提供了最基本的构造HTTP请求的方法,利用它可以模拟浏览器的一个请求发起过程,同时它还带有处理授权验证(authen...

崔庆才 2018-01-27 11:49 42067浏览 3评论 55喜欢