投稿    登录
欢迎来访~

标签:爬虫

Python

[Python3网络爬虫开发实战] 3-基本库的使用

[Python3网络爬虫开发实战] 3-基本库的使用
学习爬虫,最初的操作便是模拟浏览器向服务器发出请求,那么我们需要从哪个地方做起呢?请求需要我们自己来构造吗?需要关心请求这个数据结构的实现吗?需要了解HTTP、TCP、IP层的网络传输通信吗?需要知道服务器的响应和应答原理吗? 可能你不知道无从下手,不过不用担心,Python的强...

崔庆才 2018-01-27 11:36 15381浏览 1评论 16喜欢

Python

[Python3网络爬虫开发实战] 2.5-代理的基本原理

[Python3网络爬虫开发实战] 2.5-代理的基本原理
我们在做爬虫的过程中经常会遇到这样的情况,最初爬虫正常运行,正常抓取数据,一切看起来都是那么美好,然而一杯茶的功夫可能就会出现错误,比如403 Forbidden,这时候打开网页一看,可能会看到“您的IP访问频率太高”这样的提示。出现这种现象的原因是网站采取了一些反爬虫措施。比如...

崔庆才 2018-01-26 11:32 18420浏览 1评论 47喜欢

Python

[Python3网络爬虫开发实战] 2.4-会话和Cookies

[Python3网络爬虫开发实战] 2.4-会话和Cookies
在浏览网站的过程中,我们经常会遇到需要登录的情况,有些页面只有登录之后才可以访问,而且登录之后可以连续访问很多次网站,但是有时候过一段时间就需要重新登录。还有一些网站,在打开浏览器时就自动登录了,而且很长时间都不会失效,这种情况又是为什么?其实这里面涉及会话和Cookies的相关...

崔庆才 2018-01-26 11:28 21153浏览 1评论 48喜欢

Python

[Python3网络爬虫开发实战] 2.3-爬虫的基本原理

[Python3网络爬虫开发实战] 2.3-爬虫的基本原理
我们可以把互联网比作一张大网,而爬虫(即网络爬虫)便是在网上爬行的蜘蛛。把网的节点比作一个个网页,爬虫爬到这就相当于访问了该页面,获取了其信息。可以把节点间的连线比作网页与网页之间的链接关系,这样蜘蛛通过一个节点后,可以顺着节点连线继续爬行到达下一个节点,即通过一个网页继续获取后...

崔庆才 2018-01-26 11:23 27177浏览 1评论 73喜欢

Python

[Python3网络爬虫开发实战] 2.2-网页基础

[Python3网络爬虫开发实战] 2.2-网页基础
用浏览器访问网站时,页面各不相同,你有没有想过它为何会呈现这个样子呢?本节中,我们就来了解一下网页的基本组成、结构和节点等内容。 1. 网页的组成 网页可以分为三大部分——HTML、CSS和JavaScript。如果把网页比作一个人的话,HTML相当于骨架,JavaScript相...

崔庆才 2018-01-26 11:13 28119浏览 1评论 42喜欢

Python

[Python3网络爬虫开发实战] 2.1-HTTP基本原理

[Python3网络爬虫开发实战] 2.1-HTTP基本原理
在本节中,我们会详细了解HTTP的基本原理,了解在浏览器中敲入URL到获取网页内容之间发生了什么。了解了这些内容,有助于我们进一步了解爬虫的基本原理。 1. URI和URL 这里我们先了解一下URI和URL,URI的全称为Uniform Resource Identifier,即...

崔庆才 2018-01-26 11:02 37308浏览 1评论 113喜欢

Python

[Python3网络爬虫开发实战] 2-爬虫基础

[Python3网络爬虫开发实战] 2-爬虫基础
在写爬虫之前,我们还需要了解一些基础知识,如HTTP原理、网页的基础知识、爬虫的基本原理、Cookies的基本原理等。本章中,我们就对这些基础知识做一个简单的总结。 转载请注明:静觅 » [Python3网络爬虫开发实战] 2-爬虫基础...

崔庆才 2018-01-26 10:57 19989浏览 2评论 70喜欢