投稿    登录
  《Python3网络爬虫开发实战》赠书活动正在进行中!详情请戳赠书活动!欢迎参与!非常感谢!

[Python3网络爬虫开发实战] 3.1-使用urllib

Python 崔庆才 12443浏览 81评论

在Python 2中,有urllib和urllib2两个库来实现请求的发送。而在Python 3中,已经不存在urllib2这个库了,统一为urllib,其官方文档链接为:https://docs.python.org/3/library/urllib.html

首先,了解一下urllib库,它是Python内置的HTTP请求库,也就是说不需要额外安装即可使用。它包含如下4个模块。

  • request:它是最基本的HTTP请求模块,可以用来模拟发送请求。就像在浏览器里输入网址然后回车一样,只需要给库方法传入URL以及额外的参数,就可以模拟实现这个过程了。
  • error:异常处理模块,如果出现请求错误,我们可以捕获这些异常,然后进行重试或其他操作以保证程序不会意外终止。
  • parse:一个工具模块,提供了许多URL处理方法,比如拆分、解析、合并等。
  • robotparser:主要是用来识别网站的robots.txt文件,然后判断哪些网站可以爬,哪些网站不可以爬,它其实用得比较少。

这里重点讲解一下前3个模块。

转载请注明:静觅 » [Python3网络爬虫开发实战] 3.1-使用urllib

喜欢 (25)or分享 (0)

我的个人微信公众号,联系我请直接在公众号留言即可~

扫码或搜索:进击的Coder

进击的Coder

微信公众号 扫一扫关注

想结交更多的朋友吗?

来进击的Coder瞧瞧吧

进击的Coder

QQ群号 99350970 立即加入

进击的Coder灌水太多?

这里是纯粹的技术领地

激进的Coder

QQ群号 627725766 立即加入

您的支持是博主写作最大的动力,如果您喜欢我的文章,感觉我的文章对您有帮助,请狠狠点击下面的

发表我的评论
取消评论
表情

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址
(81)个小伙伴在吐槽
  1. Every once inside a whilst we select blogs that we study. Listed beneath are the latest web pages that we decide on
    Sexy chat2019-01-16 13:32 (1分钟前)回复
  2. Always a huge fan of linking to bloggers that I like but really don't get a whole lot of link like from.
    Google2019-01-16 10:36 (3小时前)回复
  3. very few websites that happen to become detailed beneath, from our point of view are undoubtedly effectively really worth checking out
    gucci handbags2019-01-16 07:39 (6小时前)回复
  4. Every as soon as inside a although we pick out blogs that we read. Listed beneath are the most up-to-date web pages that we pick out
    Tory Burch2019-01-16 05:13 (8小时前)回复
  5. Wonderful story, reckoned we could combine several unrelated data, nonetheless seriously really worth taking a search, whoa did one particular find out about Mid East has got extra problerms at the same time
  6. Every the moment inside a whilst we pick blogs that we read. Listed below are the latest internet sites that we pick out
1 4 5 6